WO2018147143A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2018147143A1
WO2018147143A1 PCT/JP2018/003219 JP2018003219W WO2018147143A1 WO 2018147143 A1 WO2018147143 A1 WO 2018147143A1 JP 2018003219 W JP2018003219 W JP 2018003219W WO 2018147143 A1 WO2018147143 A1 WO 2018147143A1
Authority
WO
WIPO (PCT)
Prior art keywords
screen
pointing position
information processing
sound
pointing
Prior art date
Application number
PCT/JP2018/003219
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/477,626 priority Critical patent/US10809870B2/en
Priority to JP2018567385A priority patent/JP7231412B2/ja
Priority to EP18751603.4A priority patent/EP3582093A1/en
Priority to CN201880009595.3A priority patent/CN110249297B/zh
Publication of WO2018147143A1 publication Critical patent/WO2018147143A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1601Constructional details related to the housing of computer displays, e.g. of CRT monitors, of flat displays
    • G06F1/1605Multimedia displays, e.g. with integrated or attached speakers, cameras, microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1688Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being integrated loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04801Cursor retrieval aid, i.e. visual aspect modification, blinking, colour changes, enlargement or other visual cues, for helping user do find the cursor in graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present technology relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and the like in which a user can operate by pointing to a desired position on a screen.
  • Patent Document 1 proposes an information processing apparatus in which a user can operate by pointing to a desired position on a screen.
  • a normal visual person can easily perform an operation by pointing to a desired position based on the display on the screen.
  • Patent Document 2 describes a 3D audio rendering technique in which audio data of an object sound source is mapped to a speaker located at an arbitrary position based on position information as a stereoscopic (3D) sound technique. .
  • the purpose of this technology is to make it easy for a visually impaired person to point to a desired position on the screen and perform an operation.
  • An information processing apparatus includes a control unit that controls a position detection process for detecting a user's pointing position with respect to a screen and a sound output process for outputting a sound corresponding to the detected pointing position.
  • the user's pointing position with respect to the screen is detected by the position detection process. Then, a sound corresponding to the detected pointing position is output by the sound output process. For example, the screen is displayed on the display unit, and an arbitrary position on the screen is pointed by a user operation from the user operation unit.
  • the specific area may be an area of an application logo for starting a specific application arranged on the screen.
  • a voice indicating that the pointing position is outside the screen may be output.
  • the audio output processing when the detected pointing position is in the second specific area existing in the first specific area on the screen, this pointing position is indicated as the first specific area. Simultaneously with outputting the sound, a sound indicating that the pointing position is the second specific area may be output.
  • a process corresponding to the detected pointing position may be performed as a sound image position.
  • a rendering process corresponding to the object metadata corresponding to the pointing position may be performed.
  • a rendering process according to object metadata prepared in advance in relation to the position on the screen may be performed.
  • a rendering process may be performed according to the object metadata obtained from the detected pointing position.
  • FIG. 1 It is a block diagram which shows the structural example of the information processing apparatus as embodiment. It is a figure which shows an example of a screen structure. It is a figure for demonstrating the case where the pointing position P (x, y) exists in the area
  • FIG. 1 shows a configuration example of an information processing apparatus 100 as an embodiment.
  • the information processing apparatus 100 accesses a server on a network such as the Internet, acquires desired information, and presents it to the user.
  • the information processing apparatus 100 includes a CPU (Central Processing Unit) 101 and a user operation unit 102. Further, the information processing apparatus 100 includes a communication interface 111, an image processing unit 112, an OSD (On Screen Display) unit 113, a panel driving unit 114, and a display panel 115. Further, the information processing procedure 100 includes an object renderer 121, a display interactive processing unit 122, a mixer 123, an audio output processing unit 124, and a speaker system 125.
  • a CPU Central Processing Unit
  • the information processing apparatus 100 includes a communication interface 111, an image processing unit 112, an OSD (On Screen Display) unit 113, a panel driving unit 114, and a display panel 115.
  • the information processing procedure 100 includes an object renderer 121, a display interactive processing unit 122, a mixer 123, an audio output processing unit 124, and a speaker system 125.
  • the CPU 101 controls the operation of each unit of information processing apparatus 100.
  • the user operation unit 102 is a user interface for the user to perform various operations, and is connected to the CPU 101.
  • the user operation unit 102 includes, in addition to a keyboard, a touch panel, and the like, a pointing device for performing an operation by pointing an arbitrary position on the screen, for example, a mouse.
  • the communication interface 111 accesses a server on a network such as the Internet and acquires image data VD and audio data AD for information presentation. Although illustration is omitted, the communication interface 111 also has a decoding function, and decoding of image and audio encoded data acquired by communication is also performed here. Further, the communication interface 111 acquires information on an application associated with the display image, information for outputting a sound corresponding to a pointing position by a user operation, and the like, and sends the information to the CPU 101.
  • the application information includes display position information indicating where the application logo (shortcut) for starting the application is arranged on the screen.
  • the image processing unit 112 obtains display image data by performing scaling processing, image quality adjustment processing, and the like on the image data VD acquired by the communication interface 111.
  • the OSD unit 113 generates a GUI (Graphical User Interface) display signal under the control of the CPU 101.
  • the GUI display signal includes a display signal for displaying an application logo (shortcut) for starting an application, a display signal for displaying an arrow indicating a pointing position, and the like. This GUI display signal is sent to the image processing unit 112 and superimposed on the image data.
  • the panel drive circuit 114 drives the display panel 115 based on the display image data obtained by the image processing unit 114.
  • the display panel 115 includes, for example, an LCD (Liquid Crystal Display), an organic EL display (organic electroluminescence display), and the like.
  • the mixer 123 outputs audio data (audio channel data) AD acquired by the communication interface 111, audio data generated inside the information processing apparatus 100, and audio corresponding to the pointing position obtained by the object renderer 121. Of voice channel data.
  • the audio output processing unit 124 performs necessary processing such as D / A conversion and amplification on the audio channel data obtained by the mixer 123 and supplies the processed data to the speaker system 125.
  • the speaker system 125 has a plurality of channels. In this embodiment, the speaker system 125 is a 4-channel speaker arranged at each of the top left (TL), bottom left (BL), top right (TR), and bottom right (BR) positions of the screen. Is provided.
  • the communication interface 111 acquires information for outputting a sound corresponding to a pointing position by a user operation and sends the information to the CPU 101.
  • This information includes audio data for audio output corresponding to the user's pointing position with respect to the screen.
  • Audio data SA2 used when the pointing position is in a rectangular area (logo region) of an application logo (shortcut) arranged on the screen is included as audio data for audio output according to the user's pointing position It is.
  • the audio data SA2 exists for the number of application logos arranged on the screen.
  • the audio data SA2 includes object meta data used in rendering processing for obtaining audio channel data in which the position corresponding to the arrangement position of the application logo (shortcut) on the screen is the sound image position, that is, the object position (object position). Data is attached.
  • the audio data SA1 used when the pointing position is in the background area other than the rectangular area of the application logo is included as the audio data for outputting the sound according to the user's pointing position.
  • audio data SA3 when the pointing position is outside the screen is included as audio data for audio output according to the user's pointing position.
  • the audio data SA3 is not limited to one type, and there are, for example, a plurality of types corresponding to the protruding direction, for example, four types of up, down, left, and right.
  • FIG. 2 shows an example of the screen configuration.
  • a black thick solid rectangular frame indicates the screen frame of the display panel 115.
  • audio output modules (speakers) corresponding to the respective positions divided into four are arranged.
  • This audio output module includes the display panel 115 itself and includes an integrated screen.
  • the white arrow is, for example, a mouse cursor and indicates a pointing position by a user operation.
  • the pointing position is within the rectangular area of the application logo, the rectangular area is highlighted.
  • the pointing position is within the rectangular area of the circle 1, so that the rectangular area is highlighted.
  • the intersection of the dashed line of “Top-Bottom” and “Left-Right” is the reference point at the center position (O).
  • the pointing position is moved by a user operation from the user operation unit 102, and the CPU 101 always grasps the pointing position.
  • the center position (O) is provided as a reference for determining the positional relationship with the screen when the pointing position is detected.
  • the display interactive processing unit 122 displays the position detection result as object position information ( ⁇ , ⁇ , r). When converting to, information on the pointing position viewed from the viewer's position is used as the position coordinates of the vector for reproducing the sound field.
  • FIG. 3A shows a state in which the pointing position P (x, y) is in the background area.
  • the CPU 101 always grasps the pointing position P (x, y). Further, since the CPU 101 controls the generation of display signals for each application logo, the CPU 101 also knows the rectangular area of each application logo on the screen. In this case, the CPU 101 recognizes that the pointing position P (x, y) is not in the rectangular area of each application logo but in the background area.
  • the CPU 101 uses the above-described audio data SA1 to perform audio output to indicate that the pointing position P (x, y) is in the background area that is on the screen but not the application logo area.
  • the audio data SA1 (BG (sound) is sent to the object renderer 121 (see FIG. 3B).
  • the CPU 101 determines that the pointing position P (x, y) is the sound image position, that is, the object position (object position).
  • the object position is the upper right (High ⁇ & Right) position on the screen (see FIG. 3B).
  • the CPU 101 sends information on the pointing position P (x, y) to the display interactive processing unit 122.
  • the display interactive processing unit 122 obtains position information ( ⁇ , ⁇ , r) constituting the object metadata based on the information on the pointing position P (x, y).
  • is Azimuth
  • Elevation
  • r Radius.
  • FIG. 4 schematically shows each element of the position information ( ⁇ , ⁇ , r) calculated from the information of the pointing position P (x, y) by the display interactive processing unit 122.
  • r indicates the distance from the viewing position, and an actual measurement value of a sensor or the like can be applied.
  • a distance that takes into account the angle derived from ⁇ may be used instead of the standard viewing distance.
  • the standard viewing distance is said to be about three times the vertical size of the monitor (display panel), and about 1.5 times the UHD (4K) resolution.
  • the object renderer 121 performs a rendering process using the object metadata calculated by the display interactive processing unit 122 on the audio data SA1 (BG sound), so that a position corresponding to the pointing position P (x, y) is obtained. Generate audio channel data for object position.
  • FIG. 5 shows an outline of rendering processing in the object renderer 121.
  • position information ( ⁇ , ⁇ , r) constituting object data is used in each of triangular regions (TL-BL-BR) and (TR-BL-BR) composed of three speakers.
  • TL-BL-BR triangular regions
  • TR-BL-BR triangular regions
  • the position of P (x, y) is expressed by r, ⁇ , ⁇ as shown, and the axes Q-TL, Q-BL, Q-TR, Q- extended from the point Q to each speaker position. Project onto vectors r_TL, r_BL, r_TR, r-BR on BR. In this case, in the triangular region TL-BL-BR, the position of P (x, y) is projected to (r_TL, r_BL, r_BR). The sound pressure corresponding to the vector amount of these three vectors is applied to the channel data to each speaker.
  • the object renderer 121 sends the audio channel data obtained by the above rendering process to the mixer 123.
  • the speaker system 125 outputs a sound indicating that the pointing position P (x, y) is in the background area. Therefore, the user can know by voice that the pointing position P (x, y) is in the background area.
  • the sound image position that is, the object position is a position corresponding to the pointing position P (x, y).
  • the object position is the upper right (High ⁇ & Right) position on the screen. Therefore, the user can know the approximate position of the pointing position on the screen in the direction in which the sound can be heard.
  • FIG. 6A shows a state in which the pointing position P (x, y) is in the rectangular area of the application logo with the circle 1.
  • the CPU 101 always grasps the pointing position P (x, y). Further, since the CPU 101 controls the generation of display signals for each application logo, the CPU 101 also knows the rectangular area of each application logo on the screen. In this case, the CPU 101 recognizes that the pointing position P (x, y) is in the rectangular area of the circle 1 application logo.
  • the CPU 101 determines to use the above-described audio data SA2 to perform audio output to indicate that the pointing position P (x, y) is in the rectangular area of the circle 1 application logo,
  • the audio data SA2 (circle 1 sound) is sent to the renderer 121 (see FIG. 6B).
  • the CPU 101 determines that the position corresponding to the pointing position P (x, y) is set as the audio output position, that is, the object position (object position).
  • the object position is the lower right (Low ⁇ & Right) position on the screen (see FIG. 6B).
  • the CPU 101 sends object metadata attached to the sound data SA2 (circle 1 sound) to the object renderer 121. This object metadata is set so that the object position is at the lower right (Low & Right) position on the screen.
  • the object metadata attached to the audio data SA2 (circle 2 sound) is set so that the object position is the center position on the screen.
  • the object metadata attached to the audio data SA2 (circle 3 ⁇ sound) is set such that the object position is the upper left (High & Left) position on the screen.
  • the object metadata attached to the audio data SA2 (circle 4 sound) is set so that the object position is the center of the left center (Center & Left) on the screen. Furthermore, the object metadata attached to the audio data SA2 (circle 5 sound) is set so that the object position is at the lower left (Low & Left) position on the screen.
  • the object renderer 121 When the pointing position P (x, y) is in the rectangular area of the application logo of circle 1, the object renderer 121 renders the audio data SA2 (circle 1 sound) using object metadata attached thereto. Processing is performed to generate audio channel data for setting the position corresponding to the rectangular area of the circle 1 application logo where the pointing position P (x, y) is present as the object position.
  • the description of the rendering process in the object renderer 121 is the same as that described above with reference to FIG.
  • the object renderer 121 sends the audio channel data obtained by the rendering process to the mixer 123.
  • the speaker system 125 outputs a sound indicating that the pointing position P (x, y) is in the rectangular area of the circle 1 application logo. Therefore, the user can know by voice that the pointing position P (x, y) is in the rectangular area of the circle 1 application logo.
  • the sound image position that is, the object position is a position corresponding to the rectangular area of the circle 1 application logo.
  • the object position is the lower right (Low (& Right) position on the screen. Therefore, the user can know the approximate position on the screen of the rectangular area of the circle application logo in the direction in which the voice can be heard.
  • the state in which the pointing position P (x, y) is in the rectangular area of the round 1 application logo has been described. Although the detailed description is omitted, the same applies to the state where the pointing position P (x, y) is in the area of other application logos.
  • the object metadata attached to the audio data is used as the object metadata used for the rendering process.
  • the object metadata calculated by the display interactive processing unit 122 from the pointing position P (x, y) is used. Is also possible.
  • the pointing position P (x, y) is in the area of the predetermined button in the logo region 1
  • the pointing position P (x, y) is in the logo region 1 as described above.
  • a voice indicating that the pointing position P (x, y) is in the area of the predetermined button is output at the same time.
  • the communication interface 111 acquires audio output information related to the logo region 1.
  • This audio output information includes audio data for audio output indicating that the pointing position is in the logo region 1 and object metadata associated therewith, and the pointing position for each button is the button. Audio data for audio output indicating that it is in the area and object metadata associated therewith are included.
  • the object metadata attached to the audio data of the logo region 1 is set so that the object position is the lower right (Low & Right) position on the screen.
  • the object metadata attached to the audio data in the button areas of “Scene A”, “Scene B”, “Scene C”, and “Scene D” has an object position in the upper left (High & Left, upper right (High & Right), lower left (Low & Left), lower right (Low & Right).
  • the CPU 101 causes the object renderer 121 (see FIG. 1) to include the audio data of the logo region 1 and the accompanying data.
  • the audio data of the button area of “Scene A” and the object metadata associated therewith are sent.
  • the object renderer 121 performs rendering processing using the object metadata on the audio data, and sets the position corresponding to the logo region 1, that is, the lower right (Low & (Right) position on the screen as the object position. Audio channel data is generated and sent to the mixer 123 (see FIG. 1).
  • the speaker system 125 outputs a sound indicating that it is in the logo region 1, for example, a sound of “Logo region 1”.
  • the sound image position that is, the object position is the lower right (Low & Right) position on the screen as shown in FIG.
  • the CPU 101 causes the object renderer 121 (see FIG. 1) to hear the sound of the “scene A” button area. Send data and associated object metadata.
  • the object renderer 121 performs rendering processing using the object metadata on the audio data, and sets the position corresponding to the button area of “Scene A”, here the position of the upper left (High & Left) on the screen. Generate audio channel data for the position, synthesize it with the audio channel data of the logo region 1 and send it to the mixer 123 (see FIG. 1).
  • the speaker system 125 receives the sound indicating that it is in the above-described logo region 1 and the sound indicating that it is in the button area of “scene A”, for example, “scene A in the logo region 1”. You can select other buttons to the right or down. " In this case, as shown in FIG. 8A, the sound image position, that is, the object position is the position on the upper left (High & Left) on the screen so that the relative positional relationship between the buttons can be grasped.
  • FIG. 9 shows a state in which the pointing position P (x, y) is outside the screen, in this example, on the right side of the screen.
  • the CPU 101 always grasps the pointing position P (x, y). In this case, the CPU 101 recognizes that the pointing position P (x, y) protrudes to the right side of the screen.
  • the CPU 101 determines to use the above-described audio data SA3 in order to perform audio output to indicate that the pointing position P (x, y) protrudes to the right side of the surface, and the object renderer 121
  • the audio data SA3 (OUT sound) is sent.
  • the CPU 101 determines that the pointing position P (x, y) is the sound image position, that is, the object position (object position).
  • the object position is a position protruding to the upper right with respect to the screen.
  • the CPU 101 sends information on the pointing position P (x, y) to the display interactive processing unit 122.
  • the display interactive processing unit 122 obtains position information ( ⁇ , ⁇ , r) constituting the object metadata based on the information on the pointing position P (x, y).
  • the detailed description of the position information ( ⁇ , ⁇ , r) is the same as that described above with reference to FIG.
  • the object renderer 121 performs a rendering process on the audio data SA3 (OUT sound) using the object metadata calculated by the display interactive processing unit 122, so that a position corresponding to the pointing position P (x, y) is obtained. Generate audio channel data for object position.
  • the description of the rendering process in the object renderer 121 is the same as that described above with reference to FIG.
  • the object renderer 121 sends the audio channel data obtained by the rendering process to the mixer 123.
  • the speaker system 125 outputs a voice indicating that the pointing position P (x, y) is outside the screen, that is, it protrudes to the right side, for example, “sounds to the right of the screen”. The Therefore, the user can know by voice that the pointing position P (x, y) protrudes on the right side of the screen.
  • the sound image position that is, the object position is a position corresponding to the pointing position P (x, y).
  • the object position is a position protruding to the upper right with respect to the screen. Therefore, the user can know the approximate position of the pointing position with respect to the screen in the direction in which the sound can be heard.
  • the pointing position P (x, y) when the pointing position P (x, y) is in a position such as the background, the rectangular area of the application logo, or the position outside the screen, the sound corresponding to the position is output. To do. Therefore, it becomes easy for a visually handicapped person to perform an operation by pointing to a desired position on the screen with the assistance of the sound output.
  • the sound image position (object position) when outputting the sound corresponding to the pointing position P (x, y) corresponds to the pointing position P (x, y). It is assumed that the position. For this reason, it is possible to grasp where the pointing position is on the screen from the direction in which the sound can be heard.
  • An information processing apparatus including a control unit that controls a position detection process for detecting a user's pointing position with respect to a screen and a sound output process for outputting a sound corresponding to the detected pointing position.
  • a control unit controls a position detection process for detecting a user's pointing position with respect to a screen and a sound output process for outputting a sound corresponding to the detected pointing position.
  • the information processing apparatus according to (1) wherein when the detected pointing position is in a specific area on the screen, a sound indicating that the pointing position is the specific area is output.
  • the specific area is an area of an application logo for starting a specific application arranged on the screen.
  • a display unit for displaying a screen for displaying a screen
  • a user operation unit where the user points to an arbitrary position on the screen
  • a position detection unit that detects a user's pointing position with respect to the screen
  • An information processing apparatus comprising: an audio output unit that outputs audio corresponding to the detected pointing position.
  • the main feature of the present technology is that a visually impaired person can easily operate by pointing to a desired position on the screen by outputting a sound corresponding to the pointing position (FIG. 1, FIG. 3, see FIG. 4 and FIG.
  • the main feature of this technology is that the position of the pointing position is on the screen by processing the sound image position corresponding to the pointing position when the sound corresponding to the pointing position is output. It can be grasped from the direction in which the voice can be heard (see FIGS. 1, 3, 4, and 9).

Abstract

視覚障害者が画面上の所望の位置をポイントして操作を行うことを容易とする。 画面に対するユーザのポインティング位置を検出する処理をする。検出されたポインティング位置に対応した音声を出力する処理をする。例えば、音声出力処理では、検出されたポインティング位置が画面上の特定領域にあるとき、このポインティング位置が特定領域であることを示す音声を出力する。例えば、音声出力処理では、検出されたポインティング位置に対応した位置を音像位置とする。

Description

情報処理装置および情報処理方法
 本技術は、情報処理装置および情報処理方法に関し、特に、ユーザが画面上の所望の位置をポイントして操作を行い得る情報処理装置等に関する。
 従来、例えば、特許文献1には、ユーザが画面上の所望の位置をポイントして操作を行い得る情報処理装置が提案されている。この種の情報処理装置では、視覚健常者にとっては、画面上の表示に基づいて所望の位置をポイントして操作を容易に行い得る。しかし、視覚障害者においては、画面上の所望の位置をポイントして操作を行うことは、非常に困難である。
 また、例えば、特許文献2には、立体(3D)音響技術として、オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする3Dオーディオレンダリングの技術が記載されている。
特開2014-044268号公報 特表2014-520491号公報
 本技術の目的は、視覚障害者が画面上の所望の位置をポイントして操作を行うことを容易とすることにある。
 本技術の概念は、
 画面に対するユーザのポインティング位置を検出する位置検出処理と、該検出されたポインティング位置に対応した音声を出力する音声出力処理を制御する制御部を備える
 情報処理装置にある。
 本技術において、位置検出処理により、画面に対するユーザのポインティング位置が検出される。そして、音声出力処理により、検出されたポインティング位置に対応した音声が出力される。例えば、画面は表示部に表示され、ユーザ操作部からのユーザ操作により画面上の任意の位置がポイントされる。
 例えば、音声出力処理では、検出されたポインティング位置が画面上の特定領域にあるとき、このポインティング位置が特定領域であることを示す音声を出力する、ようにされてもよい。この場合、例えば、特定の領域は、画面上に配置された特定のアプリケーションを起動させるためのアプリケーションロゴの領域である、ようにされてもよい。
 また、例えば、音声出力処理では、検出されたポインティング位置が画面上にないとき、このポインティング位置が画面外にあることを示す音声を出力する、ようにされてもよい。また、例えば、音声出力処理では、検出されたポインティング位置が画面上の第1の特定領域内に存在する第2の特定領域にあるとき、このポインティング位置が第1の特定領域であることを示す音声を出力すると同時に、このポインティング位置が第2の特定領域であることを示す音声を出力する、ようにされてもよい。
 また、例えば、音声出力処理では、検出されたポインティング位置に対応した位置を音像位置とする処理をする、ようにされてもよい。これにより、ポインティング位置が画面上のどの辺りにあるのかを音声が聞こえる方向から把握可能となる。この場合、例えば、音声出力処理では、検出されたポインティング位置に対応した位置を音像位置とするために、このポインティング位置に対応したオブジェクトメタデータに応じたレンダリング処理をする、ようにされてもよい。
 この場合、例えば、音声出力処理では、画面上の位置に関連して予め用意されているオブジェクトメタデータに応じたレンダリング処理をする、ようにされてもよい。また、この場合、例えば、音声出力処理では、検出されたポインティング位置から求められたオブジェクトメタデータに応じたレンダリング処理をする、ようにされてもよい。
 このように本技術においては、ポインティング位置に対応した音声を出力するものである。そのため、視覚障害者が画面上の所望の位置をポイントして操作を行うことが容易となる。
 本技術によれば、視覚障害者が画面上の所望の位置をポイントして操作を行うことを容易とできる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
実施の形態としての情報処理装置の構成例を示すブロック図である。 画面構成の一例を示す図である。 ポインティング位置P(x,y)が背景の領域にある場合を説明するための図である。 表示インタラクティブ処理部でポインティング位置P(x,y)の情報から算出する位置情報(θ,φ,r)の各要素を模式的に示す図である。 オブジェクトレンダラにおけるレンダリング処理の概要を示す図である。 ポインティング位置P(x,y)がアプリケーションロゴの領域にある場合を説明するための図である。 アプリケーションロゴの矩形領域のオブジェクト・ポジションの奥行方向の位置関係を説明するための図である。 ロゴ・リージョンの中に選択し得るボタンが存在する場合を説明するための図である。 ポインティング位置P(x,y)が画面外にある場合を説明するための図である
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [情報処理装置の構成例]
 図1は、実施の形態としての情報処理装置100の構成例を示している。この情報処理装置100は、例えば、インターネット等のネット上にあるサーバにアクセスして所望の情報を取得してユーザに提示するものである。
 情報処理装置100は、CPU(Central Processing Unit)101と、ユーザ操作部102を有している。また、情報処理装置100は、通信インタフェース111と、画像処理部112と、OSD(On Screen Display)部113と、パネル駆動部114と、表示パネル115を有している。また、情報処理処置100は、オブジェクトレンダラ121と、表示インタラクティブ処理部122と、ミキサ123と、音声出力処理部124と、スピーカシステム125を有している。
 CPU101は、情報処理装置100の各部の動作を制御する。ユーザ操作部102は、ユーザが種々の操作を行うためのユーザインタフェースであり、CPU101に接続されている。このユーザ操作部102は、キーボード、タッチパネルなどの他に、画面上の任意の位置をポイントして操作を行うためのポインティングデバイス、例えばマウスなども含んでいる。
 通信インタフェース111は、インターネット等のネット上にあるサーバにアクセスして、情報提示のための画像データVDや音声データADを取得する。なお、図示は省略しているが、通信インタフェース111はデコード機能も備えるものであり、通信により取得された画像や音声の符号化データのデコードもここで行われている。また、通信インタフェース111は、表示画像に関連付けされたアプリケーションの情報、さらにはユーザ操作によるポインティング位置に対応した音声を出力するための情報なども取得し、CPU101に送る。アプリケーションの情報には、このアプリケーションを起動させるためのアプリケーションロゴ(ショートカット)を画面上のどの位置に配置するかを示す表示位置情報も含まれる。
 画像処理部112は、通信インタフェース111で取得された画像データVDに対してスケーリング処理、画質調整処理などを行って表示用画像データを得る。OSD部113は、CPU101の制御のもと、GUI(Graphical User Interface)表示信号を発生する。このGUI表示信号には、アプリケーションを起動させるためのアプリケーションロゴ(ショートカット)を表示するための表示信号、ポインティング位置を示す矢印を表示するための表示信号等が含まれる。このGUI表示信号は、画像処理部112に送られ、画像データに重畳される。
 パネル駆動回路114は、画像処理部114で得られる表示用画像データに基づいて、表示パネル115を駆動する。表示パネル115は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
 ミキサ123は、通信インタフェース111で取得された音声データ(音声チャネルデータ)ADや、情報処理装置100内部で発生した音声データと、オブジェクトレンダラ121で得られたポインティング位置に対応した音声を出力するための音声チャネルデータを合成する。音声出力処理部124は、ミキサ123で得られた音声チャネルデータに対してD/A変換や増幅等の必要な処理を行ってスピーカシステム125に供給する。スピーカシステム125は、複数チャネル、この実施の形態では画面のトップレフト(TL)、ボトムレフト(BL)、トップライト(TR)、ボトムライト(BR)のそれぞれの位置に配置される4チャネルのスピーカを備える。
 通信インタフェース111は、上述したように、ユーザ操作によるポインティング位置に対応した音声を出力するための情報を取得してCPU101に送る。この情報には、画面に対するユーザのポインティング位置に応じた音声出力のための音声データが含まれる。
 このユーザのポインティング位置に応じた音声出力のための音声データとして、ポインティング位置が画面上に配置されたアプリケーションロゴ(ショートカット)の矩形領域(ロゴ・リージョン)にある場合に使用する音声データSA2が含まれる。この音声データSA2は、画面上に配置されたアプリケーションロゴの種類分だけ存在する。この音声データSA2には、アプリケーションロゴ(ショートカット)の画面上の配置位置に対応した位置を音像位置、つまりオブジェクト・ポジション(object position)とする音声チャネルデータを得るためのレンダリング処理で用いられるオブジェクトメタデータが付随している。
 また、ユーザのポインティング位置に応じた音声出力のための音声データとして、ポインティング位置が画面上であるがアプリケーションロゴの矩形領域でない背景領域にある場合に使用する音声データSA1が含まれる。さらに、ユーザのポインティング位置に応じた音声出力のための音声データとして、ポインティング位置が画面外にある場合の音声データSA3が含まれる。なお、この音声データSA3は、1種類だけではなく、例えばはみ出した方向に応じた複数種類、例えば上下左右の4種類が存在する。
 図2は、画面構成の一例を示している。図示の例において、黒の太い実線の矩形枠は表示パネル115の画面枠を示している。この画面枠の背面側には、4分割されたそれぞれの位置に対応した音声出力モジュール(スピーカ)が配されている。この音声出力モジュールは、表示パネル115自体で構成され、画面と一体となっているものも含まれる。
 画面上には、背景上に丸1~丸5を付して示している特定のアプリケーションを起動させるためのアプリケーションロゴの矩形領域が存在する。この矩形領域内にはアプリケーションロゴ(ショートカットなど)が表示されている(図2においてロゴ表示は省略している)。
 白抜きの矢印は、例えばマウスカーソルであって、ユーザ操作によるポインティング位置を示している。ポインティング位置がアプリケーションロゴの矩形領域内にあるとき、その矩形領域はハイライト状態となる。図示の例では、ポインティング位置が丸1の矩形領域内にあるので、その矩形領域がハイライト状態となっている。
 また、図示の例において、「Top-Bottom」と「Left-Right」の一点鎖線の交点がセンター位置(O)で基準点となっており、この基準点に対して上下左右のオフセットにより、ポインティング位置が現在どこにあるかということがわかるようになっている。このポインティング位置はユーザ操作部102からのユーザ操作により移動するものであり、CPU101は、ポインティング位置を常に把握している。センター位置(O)はポインティング位置検出の際に画面との位置関係を決定する際の基準として設けるもので、表示インタラクティブ処理部122で、位置の検出結果をオブジェクト位置情報(θ,φ,r)に変換する際に、視聴者の位置からみたポインティング位置の情報を音場再生するベクトルの位置座標とする。
 「1.ポインティング位置P(x,y)が背景の領域にある場合」
 図3(a)は、ポインティング位置P(x,y)が背景の領域にある状態を示している。CPU101は、上述したようにポインティング位置P(x,y)を常に把握している。また、CPU101は、各アプリケーションロゴの表示信号の発生を制御していることから、画面上における各アプリケーションロゴの矩形領域も把握している。この場合、CPU101は、ポインティング位置P(x,y)が各アプリケーションロゴの矩形領域にはなく、背景領域にあることを認識する。
 この場合、CPU101は、ポインティング位置P(x,y)が画面上であるがアプリケーションロゴの領域でない背景領域にあることを示すための音声出力を行うために、上述の音声データSA1を用いることを決定し、オブジェクトレンダラ121に、音声データSA1(BG sound)を送る(図3(b)参照)。また、この場合、CPU101は、ポインティング位置P(x,y)を、音像位置、つまりオブジェクト・ポジション(object position)とすることに決定する。この例では、オブジェクト・ポジションは、画面上の右上(High & Right)の位置となる(図3(b)参照)。
 この場合、CPU101は、表示インタラクティブ処理部122に、ポインティング位置P(x,y)の情報を送る。表示インタラクティブ処理部122は、このポインティング位置P(x,y)の情報に基づいて、オブジェクトメタデータを構成する位置情報(θ,φ,r)を求める。ここで、θはアジマス(Azimuth)であり、φはエレベーション(Elevation)であり、rはラジアス(Radius)である。
 図4は、表示インタラクティブ処理部122でポインティング位置P(x,y)の情報から算出する位置情報(θ,φ,r)の各要素を模式的に示している。rは、視聴位置からの距離を示すもので、センサーなどの実測値を適用することも可能である。あるいは、実測値の代わりに、図示のように、標準視聴距離とされるものを代用して、それにθから導き出されるアングルを考慮した距離としてもよい。ここで、標準視聴距離は、モニタ(表示パネル)の縦方向の大きさの約3倍、UHD(4K)解像度では約1.5倍といわれている。
 オブジェクトレンダラ121は、音声データSA1(BG sound)に対して、表示インタラクティブ処理部122で算出されたオブジェクトメタデータを用いたレンダリング処理を行って、ポインティング位置P(x,y)に対応した位置をオブジェクト・ポジションとするための音声チャネルデータを生成する。
 図5は、オブジェクトレンダラ121におけるレンダリング処理の概要を示している。このレンダリング処理では、3つのスピーカで構成される三角形領域(TL-BL-BR)と(TR-BL-BR)の各々において、オブジェクトデータを構成する位置情報(θ,φ,r)を利用して三角形領域を合成して仮想音像P(x,y)の位置を定めるようにする。
 P(x,y)の位置は、図示のようにr,φ,θで表現されるもので、点Qから各スピーカ位置へ伸ばした軸Q-TL,Q-BL,Q-TR,Q-BR上のベクトルr_TL,r_BL,r_TR,r-BRに射影する。この場合、三角領域TL-BL-BRにおいて、P(x,y)の位置は(r_TL,r_BL,r_BR) に射影される。この3つのベクトルのベクトル量に相当する音圧を各スピーカへのチャンネルデータにあてる。
 一方、三角領域TR-BL-BRにおいて、P(x,y)の位置は(r_TR,r_BL,r_BR) に射影される。この3つのベクトルのベクトル量に相当する音圧を各スピーカへのチャンネルデータにあてる。2つの三角領域の間で、個々のベクトルごとに射影されたベクトル量を合成することで4つのスピーカから出力される合成された音声出力が得られる。
 オブジェクトレンダラ121は、上述のレンダリング処理で得られた音声チャネルデータをミキサ123に送る。これにより、スピーカシステム125からはポインティング位置P(x,y)が背景領域にあることを示す音声出力がなされる。そのため、ユーザは、ポインティング位置P(x,y)が背景領域にあることを音声で知ることができる。
 また、その音像位置、つまりオブジェクト・ポジションは、ポインティング位置P(x,y)に対応した位置となる。図3の例では、オブジェクト・ポジションは画面上の右上(High & Right)の位置となる。そのため、ユーザは音声が聞こえる方向でもってポインティング位置の画面上におけるおおよその位置を知ることが可能となる。
 「2.ポインティング位置P(x,y)がアプリケーションロゴの領域にある場合」
 図6(a)は、ポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にある状態を示している。CPU101は、上述したようにポインティング位置P(x,y)を常に把握している。また、CPU101は、各アプリケーションロゴの表示信号の発生を制御していることから、画面上における各アプリケーションロゴの矩形領域も把握している。この場合、CPU101は、ポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にあることを認識する。
 この場合、CPU101は、ポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にあることを示すための音声出力を行うために、上述の音声データSA2を用いることを決定し、オブジェクトレンダラ121に、音声データSA2(丸1 sound)を送る(図6(b)参照)。
 また、CPU101は、ポインティング位置P(x,y)に対応した位置を、音声出力位置、つまりオブジェクト・ポジション(object position)とすることを決定する。この例では、オブジェクト・ポジションは、画面上の右下(Low & Right)の位置とされる(図6(b)参照)。この場合、CPU101は、音声データSA2(丸1 sound)に付随しているオブジェクトメタデータをオブジェクトレンダラ121に送る。このオブジェクトメタデータは、オブジェクト・ポジションが画面上の右下(Low & Right)の位置となるように設定されている。
 因みに、音声データSA2(丸2 sound)に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の中央(Center)の位置となるように設定されている。また、音声データSA2(丸3 sound)に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の左上(High & Left)の位置となるように設定されている。
 また、音声データSA2(丸4 sound)に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の左中央(Center & Left)の位置となるように設定されている。さらに、音声データSA2(丸5 sound)に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の左下(Low & Left)の位置となるように設定されている。
 なお、この場合、オブジェクトメタデータのrの値を制御することで、空間的にオーバーラップするアプリケーションロゴの矩形領域のオブジェクト・ポジションの奥行方向の位置関係を表現することが可能となる。
 図7を用いて、丸1のアプリケーションロゴの矩形領域が丸2のアプリケーションロゴの矩形領域より手前に配置される場合を考える。この場合、(ベクトルr(丸1)の大きさ)<(ベクトルr(丸2)の大きさ)の関係を満たすようにする。このようにオブジェクトメタデータのrの値を設定することで、ポインティング位置がP1(x,y)で丸1のアプリケーションロゴの矩形領域にあるときと、ポインティング位置がP2(x,y)で丸2のアプリケーションロゴの矩形領域にあるときとで、丸1のアプリケーションロゴの矩形領域が丸2のアプリケーションロゴの矩形領域より手前にあることを音声で検知できるようになる。
 ポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にあるとき、オブジェクトレンダラ121は、音声データSA2(丸1 sound)に対して、それに付随しているオブジェクトメタデータを用いたレンダリング処理を行って、ポインティング位置P(x,y)が存在する丸1のアプリケーションロゴの矩形領域に対応した位置をオブジェクト・ポジションとするための音声チャネルデータを生成する。このオブジェクトレンダラ121におけるレンダリング処理の説明については上述の図5を用いた説明と同様であるので、ここでは省略する。
 オブジェクトレンダラ121は、レンダリング処理で得られた音声チャネルデータをミキサ123に送る。これにより、スピーカシステム125からはポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にあることを示す音声出力がなされる。そのため、ユーザは、ポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にあることを音声で知ることができる。
 また、その音像位置、つまりオブジェクト・ポジションは、丸1のアプリケーションロゴの矩形領域に対応した位置となる。図6の例では、オブジェクト・ポジションは画面上の右下(Low & Right)の位置となる。そのため、ユーザは音声の聞こえる方向でもって丸1のアプリケーションロゴの矩形領域の画面上におけるおおよその位置を知ることが可能となる。
 なお、上述では、ポインティング位置P(x,y)が丸1のアプリケーションロゴの矩形領域にある状態を説明した。詳細説明は省略するが、ポインティング位置P(x,y)がその他のアプリケーションロゴの領域にある状態においても同様である。また、上述では、レンダリング処理に用いるオブジェクトメタデータとして音声データに付随しているものを用いる例を示したが、ポインティング位置P(x,y)から表示インタラクティブ処理部122で計算したものを用いることも可能である。
 また、上述では、アプリケーションロゴの矩形領域(ロゴ・リージョン)に選択し得るボタンが存在しない例を説明した。しかし、図8(a),(b)に示すように、ロゴ・リージョン1の中に選択し得るボタンが存在する場合もある。この場合、ポインティング位置P(x,y)が、ロゴ・リージョン1内の所定のボタンの領域にある状態では、上述したようにポインティング位置P(x,y)がロゴ・リージョン1にあることを示す音声を出力し、同時に、ポインティング位置P(x,y)がこの所定のボタンの領域にあることを示す音声を出力するようにされる。
 図示の例の場合、通信インタフェース111(図1参照)は、ロゴ・リージョン1に関連した音声出力情報を取得する。この音声出力情報には、ポインティング位置がロゴ・リージョン1にあることを示す音声出力のための音声データと、これに付随したオブジェクトメタデータが含まれる他に、ボタン毎に、ポインティング位置がそのボタン領域にあることを示す音声出力のための音声データと、これに付随したオブジェクトメタデータが含まれる。
 例えば、ロゴ・リージョン1の音声データに付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の右下(Low & Right)の位置となるように設定されている。また、「シーンA」、「シーンB」、「シーンC」、「シーンD」のボタン領域の音声データに付随しているオブジェクトメタデータは、それぞれ、オブジェクト・ポジションが画面上の左上(High & Left)、右上(High & Right)、左下(Low & Left)、右下(Low & Right)の位置となるように設定されている。
 図示のように、ポインティング位置P(x,y)が「シーンA」のボタン領域にある状態では、CPU101は、オブジェクトレンダラ121(図1参照)に、ロゴ・リージョン1の音声データと、それに付随したオブジェクトメタデータを送ると共に、「シーンA」のボタン領域の音声データと、それに付随したオブジェクトメタデータを送る。
 オブジェクトレンダラ121は、音声データに対してオジェクトメタデータを用いたレンダリング処理を行って、ロゴ・リージョン1に対応した位置、ここでは画面上の右下(Low & Right)の位置をオブジェクト・ポジションとするための音声チャネルデータを生成して、ミキサ123(図1参照)に送る。
 これにより、スピーカシステム125からは、ロゴ・リージョン1にあることを示す音声、例えば「ロゴ・リージョン1です」の音声が出力される。この場合、その音像位置、つまりオブジェクト・ポジションは、図8(a)に示すように、画面上の右下(Low & Right)の位置となる。
 また、図示のように、ポインティング位置P(x,y)が「シーンA」のボタン領域にある状態では、CPU101は、オブジェクトレンダラ121(図1参照)に、「シーンA」のボタン領域の音声データと、それに付随したオブジェクトメタデータを送る。
 オブジェクトレンダラ121は、音声データに対してオジェクトメタデータを用いたレンダリング処理を行って、「シーンA」のボタン領域に対応した位置、ここでは画面上の左上(High & Left)の位置をオブジェクト・ポジションとするための音声チャネルデータを生成して、上述のロゴ・リージョン1の音声チャネルデータに合成してミキサ123(図1参照)に送る。
 これにより、スピーカシステム125からは、上述のロゴ・リージョン1にあることを示す音声と同時に、「シーンA」のボタン領域にあることを示す音声、例えば「ロゴ・リージョン1内のシーンAです。右や下に他のボタンが選択できます」の音声が出力される。この場合、その音像位置、つまりオブジェクト・ポジションは、図8(a)に示すように、ボタン同士の相対位置関係が把握できるよう、画面上の左上(High & Left)の位置となる。
 なお、詳細説明は省略するが、ポインティング位置P(x,y)が他のボタン領域にある状態においても同様の処理がなされ、ロゴ・リージョン1にあることを示す音声と、そのボタン領域にあることを示す音声がそれぞれ設定されたオブジェクト・ポジションで同時に出力される。
 「3.ポインティング位置P(x,y)が画面外にある場合」
 図9は、ポインティング位置P(x,y)が画面外、この例では画面の右側にある状態を示している。CPU101は、上述したようにポインティング位置P(x,y)を常に把握している。この場合、CPU101は、ポインティング位置P(x,y)が画面の右側にはみ出していることを認識する。
 この場合、CPU101は、ポインティング位置P(x,y)が面の右側にはみ出していることを示すための音声出力を行うために、上述の音声データSA3を用いることを決定し、オブジェクトレンダラ121に、その音声データSA3(OUT sound)を送る。また、この場合、CPU101は、ポインティング位置P(x,y)を、音像位置、つまりオブジェクト・ポジション(object position)とすることに決定する。この例では、オブジェクト・ポジションは、画面に対して右上にはみ出した位置となる。
 この場合、CPU101は、表示インタラクティブ処理部122に、ポインティング位置P(x,y)の情報を送る。表示インタラクティブ処理部122は、このポインティング位置P(x,y)の情報に基づいて、オブジェクトメタデータを構成する位置情報(θ,φ,r)を求める。この位置情報(θ,φ,r)の詳細説明については上述の図4を用いた説明と同様であるので、ここでは省略する。
 オブジェクトレンダラ121は、音声データSA3(OUT sound)に対して、表示インタラクティブ処理部122で算出されたオブジェクトメタデータを用いたレンダリング処理を行って、ポインティング位置P(x,y)に対応した位置をオブジェクト・ポジションとするための音声チャネルデータを生成する。このオブジェクトレンダラ121におけるレンダリング処理の説明については上述の図5を用いた説明と同様であるので、ここでは省略する。
 オブジェクトレンダラ121は、レンダリング処理で得られた音声チャネルデータをミキサ123に送る。これにより、スピーカシステム125からはポインティング位置P(x,y)が画面外にあること、ここでは右側にはみ出していることを示す音声、例えば「画面の右にはみ出ました」の音声が出力される。そのため、ユーザは、ポインティング位置P(x,y)が画面の右側はみ出していることを音声で知ることができる。
 また、その音像位置、つまりオブジェクト・ポジションは、ポインティング位置P(x,y)に対応した位置となる。図9の例では、オブジェクト・ポジションは画面に対して右上にはみ出した位置となる。そのため、ユーザは音声が聞こえる方向でもってポインティング位置の画面に対するおおよその位置を知ることが可能となる。
 上述したように、図1に示す情報処理装置100においては、ポインティング位置P(x,y)が背景、アプリケーションロゴの矩形領域、画面外などの位置にある場合、その位置に対応した音声を出力する。そのため、視覚障害者は、この音声出力による支援を受けて、画面上の所望の位置をポイントして操作を行うことが容易となる。
 また、図1に示す情報処理装置100においては、ポインティング位置P(x,y)に対応した音声を出力する際の音像位置(オブジェクト・ポジション)を、そのポインティング位置P(x,y)に対応した位置とするものである。そのため、ポインティング位置が画面上のどの辺りにあるのか音声が聞こえる方向から把握可能となる。
 <2.変形例>
 なお、上述実施の形態においては、画面上に特定のアプリケーションを起動させるためのアプリケーションロゴ(ショートカット)の矩形領域が配置された例を示した。画面上に配置される領域はこれに限定されるものではなく、ユーザがポインティングして操作をし得るその他の領域であってもよい。例えば、コンテンツを再生する装置において、再生コンテンツを選択するためのロゴ領域などであってもよい。
 また、本技術は、以下のような構成を取ることもできる。
 (1)画面に対するユーザのポインティング位置を検出する位置検出処理と、該検出されたポインティング位置に対応した音声を出力する音声出力処理を制御する制御部を備える
 情報処理装置。
 (2)上記音声出力処理では、
 上記検出されたポインティング位置が画面上の特定領域にあるとき、該ポインティング位置が上記特定領域であることを示す音声を出力する
 前記(1)に記載の情報処理装置。
 (3)上記特定の領域は、上記画面上に配置された特定のアプリケーションを起動させるためのアプリケーションロゴの領域である
 前記(2)に記載の情報処理装置。
 (4)上記音声出力処理では、
 上記検出されたポインティング位置が画面上にないとき、該ポインティング位置が画面外にあることを示す音声を出力する
 前記(1)から(3)のいずれかに記載の情報処理装置。
 (5)上記音声出力処理では、
 上記検出されたポインティング位置が画面上の第1の特定領域内に存在する第2の特定領域にあるとき、該ポインティング位置が上記第1の特定領域であることを示す音声を出力すると同時に、該ポインティング位置が上記第2の特定領域であることを示す音声を出力する
 前記(1)に記載の情報処理装置。
 (6)上記音声出力処理では、
 上記検出されたポインティング位置に対応した位置を音像位置とする処理をする
 前記(1)から(5)のいずれかに記載の情報処理装置。
 (7)上記音声出力処理では、
 上記検出されたポインティング位置に対応した位置を音像位置とするために、該ポインティング位置に対応したオブジェクトメタデータに応じたレンダリング処理をする
 前記(6)に記載の情報処理装置。
 (8)上記音声出力処理では、
 画面上の位置に関連して予め用意されているオブジェクトメタデータに応じたレンダリング処理をする
 前記(7)に記載の情報処理装置。
 (9)上記音声出力処理では、
 上記検出されたポインティング位置から求められたオブジェクトメタデータに応じたレンダリング処理をする
 前記(7)に記載の情報処理装置。
 (10)画面に対するユーザのポインティング位置を検出する位置検出ステップと、
 上記検出されたポインティング位置に対応した音声を出力する音声出力ステップを有する
 情報処理方法。
 (11)画面を表示する表示部と、
 上記画面上の任意の位置をユーザがポイントするユーザ操作部と、
 上記画面に対するユーザのポインティング位置を検出する位置検出部と、
 上記検出されたポインティング位置に対応した音声を出力する音声出力部を備える
 情報処理装置。
 本技術の主な特徴は、ポインティング位置に対応した音声を出力することで、視覚障害者が画面上の所望の位置をポイントして操作をすることを容易としたことである(図1、図3、図4、図9参照)。また、本技術の主な特徴は、ポインティング位置に対応した音声を出力する際の音像位置を、そのポインティング位置に対応した位置とする処理をすることで、ポインティング位置が画面上のどの辺りにあるのか音声が聞こえる方向から把握可能としたことである(図1、図3、図4、図9参照。
 100・・・情報処理装置
 101・・・CPU
 102・・・ユーザ操作部
 111・・・通信インタフェース
 112・・・画像処理部
 113・・・OSD部
 114・・・パネル駆動部
 115・・・表示パネル
 121・・・オブジェクトレンダラ
 122・・・表示インタラクティブ処理部
 123・・・ミキサ
 124・・・音声出力処理部
 125・・・スピーカシステム

Claims (11)

  1.  画面に対するユーザのポインティング位置を検出する位置検出処理と、該検出されたポインティング位置に対応した音声を出力する音声出力処理を制御する制御部を備える
     情報処理装置。
  2.  上記音声出力処理では、
     上記検出されたポインティング位置が画面上の特定領域にあるとき、該ポインティング位置が上記特定領域であることを示す音声を出力する
     請求項1に記載の情報処理装置。
  3.  上記特定の領域は、上記画面上に配置された特定のアプリケーションを起動させるためのアプリケーションロゴの領域である
     請求項2に記載の情報処理装置。
  4.  上記音声出力処理では、
     上記検出されたポインティング位置が画面上にないとき、該ポインティング位置が画面外にあることを示す音声を出力する
     請求項1に記載の情報処理装置。
  5.  上記音声出力処理では、
     上記検出されたポインティング位置が画面上の第1の特定領域内に存在する第2の特定領域にあるとき、該ポインティング位置が上記第1の特定領域であることを示す音声を出力すると同時に、該ポインティング位置が上記第2の特定領域であることを示す音声を出力する
     請求項1に記載の情報処理装置。
  6.  上記音声出力処理では、
     上記検出されたポインティング位置に対応した位置を音像位置とする処理をする
     請求項1に記載の情報処理装置。
  7.  上記音声出力処理では、
     上記検出されたポインティング位置に対応した位置を音像位置とするために、該ポインティング位置に対応したオブジェクトメタデータに応じたレンダリング処理をする
     請求項6に記載の情報処理装置。
  8.  上記音声出力処理では、
     画面上の位置に関連して予め用意されているオブジェクトメタデータに応じたレンダリング処理をする
     請求項7に記載の情報処理装置。
  9.  上記音声出力処理では、
     上記検出されたポインティング位置から求められたオブジェクトメタデータに応じたレンダリング処理をする
     請求項7に記載の情報処理装置。
  10.  画面に対するユーザのポインティング位置を検出する位置検出ステップと、
     上記検出されたポインティング位置に対応した音声を出力する音声出力ステップを有する
     情報処理方法。
  11.  画面を表示する表示部と、
     上記画面上の任意の位置をユーザがポイントするユーザ操作部と、
     上記画面に対するユーザのポインティング位置を検出する位置検出部と、
     上記検出されたポインティング位置に対応した音声を出力する音声出力部を備える
     情報処理装置。
PCT/JP2018/003219 2017-02-09 2018-01-31 情報処理装置および情報処理方法 WO2018147143A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/477,626 US10809870B2 (en) 2017-02-09 2018-01-31 Information processing apparatus and information processing method
JP2018567385A JP7231412B2 (ja) 2017-02-09 2018-01-31 情報処理装置および情報処理方法
EP18751603.4A EP3582093A1 (en) 2017-02-09 2018-01-31 Information processing device and information processing method
CN201880009595.3A CN110249297B (zh) 2017-02-09 2018-01-31 信息处理设备和信息处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-022643 2017-02-09
JP2017022643 2017-02-09

Publications (1)

Publication Number Publication Date
WO2018147143A1 true WO2018147143A1 (ja) 2018-08-16

Family

ID=63108341

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/003219 WO2018147143A1 (ja) 2017-02-09 2018-01-31 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (1) US10809870B2 (ja)
EP (1) EP3582093A1 (ja)
JP (2) JP7231412B2 (ja)
CN (1) CN110249297B (ja)
WO (1) WO2018147143A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114365507A (zh) * 2019-05-08 2022-04-15 麦耶声音实验室股份有限公司 用于向观众空间中的观众递送全带宽声音的系统和方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891233B (zh) * 2017-11-14 2024-04-09 索尼公司 信号处理设备和方法、及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271748A (ja) * 2003-03-06 2004-09-30 Nec Corp タッチパネル装置
JP2007052385A (ja) * 2005-08-15 2007-03-01 Kohei Katagiri オーディオ・ユーザー・インターフェース
JP2007086856A (ja) * 2005-09-20 2007-04-05 Fuji Xerox Co Ltd ユーザインタフェース装置
JP2010074238A (ja) * 2008-09-16 2010-04-02 Canon Inc 受信装置及びその制御方法
JP2014044268A (ja) 2012-08-24 2014-03-13 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2016053767A (ja) * 2014-09-02 2016-04-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
US6404442B1 (en) * 1999-03-25 2002-06-11 International Business Machines Corporation Image finding enablement with projected audio
JP2001306254A (ja) 2000-02-17 2001-11-02 Seiko Epson Corp 打音検出による入力機能
JP2003067119A (ja) * 2001-08-24 2003-03-07 Ricoh Co Ltd 機器操作装置、プログラムおよび記録媒体
JP4926091B2 (ja) 2008-02-19 2012-05-09 株式会社日立製作所 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム
WO2012108342A1 (ja) * 2011-02-08 2012-08-16 シャープ株式会社 入力装置
JP5945100B2 (ja) * 2011-06-03 2016-07-05 任天堂株式会社 入力処理プログラム、入力処理装置、入力処理方法および入力処理システム
BR112013033835B1 (pt) 2011-07-01 2021-09-08 Dolby Laboratories Licensing Corporation Método, aparelho e meio não transitório para autoria e renderização aperfeiçoadas de áudio em 3d
US9417754B2 (en) * 2011-08-05 2016-08-16 P4tents1, LLC User interface system, method, and computer program product
JP5889408B2 (ja) * 2012-06-04 2016-03-22 株式会社Pfu 情報処理装置、方法およびプログラム
US9645678B2 (en) * 2012-12-18 2017-05-09 Seiko Epson Corporation Display device, and method of controlling display device
KR102104910B1 (ko) * 2013-02-28 2020-04-27 삼성전자주식회사 입력 유닛에 촉각 피드백을 제공하는 휴대 장치 및 그 방법
US20170039030A1 (en) 2013-12-27 2017-02-09 Sony Corporation Display control device, display control method, and program
CN105589594B (zh) * 2014-11-06 2019-12-31 天马微电子股份有限公司 电子装置和电子装置的操作控制方法
CN112965636A (zh) * 2014-12-26 2021-06-15 株式会社尼康 控制装置
WO2016118098A1 (en) * 2015-01-20 2016-07-28 Ozturk Gurkan A method for layout and selection of the menu elements in man-machine interface
EP3304264A1 (en) * 2015-06-07 2018-04-11 Apple Inc. Device, method, and graphical user interface for manipulating related application windows
KR20160144817A (ko) 2015-06-09 2016-12-19 삼성전자주식회사 디스플레이 장치, 포인팅 장치, 포인팅 시스템 및 그 제어 방법
US10004984B2 (en) * 2016-10-31 2018-06-26 Disney Enterprises, Inc. Interactive in-room show and game system
US11609300B2 (en) * 2017-03-17 2023-03-21 SIRL, Inc. Precise positioning system enabled product location method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271748A (ja) * 2003-03-06 2004-09-30 Nec Corp タッチパネル装置
JP2007052385A (ja) * 2005-08-15 2007-03-01 Kohei Katagiri オーディオ・ユーザー・インターフェース
JP2007086856A (ja) * 2005-09-20 2007-04-05 Fuji Xerox Co Ltd ユーザインタフェース装置
JP2010074238A (ja) * 2008-09-16 2010-04-02 Canon Inc 受信装置及びその制御方法
JP2014044268A (ja) 2012-08-24 2014-03-13 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2016053767A (ja) * 2014-09-02 2016-04-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114365507A (zh) * 2019-05-08 2022-04-15 麦耶声音实验室股份有限公司 用于向观众空间中的观众递送全带宽声音的系统和方法

Also Published As

Publication number Publication date
US10809870B2 (en) 2020-10-20
US20190369814A1 (en) 2019-12-05
JP2023024471A (ja) 2023-02-16
JPWO2018147143A1 (ja) 2019-11-21
EP3582093A4 (en) 2019-12-18
EP3582093A1 (en) 2019-12-18
CN110249297B (zh) 2023-07-21
CN110249297A (zh) 2019-09-17
JP7231412B2 (ja) 2023-03-01

Similar Documents

Publication Publication Date Title
JP7275227B2 (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
JP2023024471A (ja) 情報処理装置および情報処理方法
KR102350933B1 (ko) 영상표시장치
US11812252B2 (en) User interface feedback for controlling audio rendering for extended reality experiences
US20200209952A1 (en) An Apparatus and Associated Methods for Presenting Sensory Scenes
KR102332739B1 (ko) 음향 처리 장치 및 방법, 그리고 프로그램
US20220174445A1 (en) Display device and control method thereof
WO2015194075A1 (ja) 画像処理装置、画像処理方法及びプログラム
US20200111257A1 (en) Sound reproduction apparatus for reproducing virtual speaker based on image information
EP3713255A1 (en) Signal processing device and method, and program
WO2019057530A1 (en) APPARATUS AND ASSOCIATED METHODS FOR PRESENTING AUDIO IN THE FORM OF SPACE AUDIO
KR102312879B1 (ko) 디스플레이 장치 및 그의 제어 방법
EP3046340B1 (en) User interface device, sound control apparatus, sound system, sound control method, and program
JP6484914B2 (ja) 情報処理機器および操作システム
JP5448611B2 (ja) 表示制御装置及び制御方法
US20230260221A1 (en) Mixed reality environment display using surface reconstruction mesh and live video overlay
WO2022209317A1 (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP7457893B2 (ja) 制御装置、制御装置の処理方法、および、プログラム
KR101409845B1 (ko) 영상 표시 장치 및 방법
JP2013540378A (ja) 3dビデオディスプレイのグラフィック面のz軸位置の設定
WO2023158492A1 (en) Mixed reality environment display using surface reconstruction mesh and live video overlay
JP2017111251A (ja) 画像表示システムおよび画像表示方法
WO2019121059A1 (en) An apparatus and associated methods for presentation of first and second augmented, virtual or mixed reality content
JP2009301269A (ja) ソフトウェア入力キー表示方法、プログラム及び情報処理端末
JP2009186727A (ja) マルチプルビュー方向表示装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18751603

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018567385

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018751603

Country of ref document: EP

Effective date: 20190909