WO2018155351A1 - Reproduction method, reproduction system, and reproduction apparatus - Google Patents

Reproduction method, reproduction system, and reproduction apparatus Download PDF

Info

Publication number
WO2018155351A1
WO2018155351A1 PCT/JP2018/005613 JP2018005613W WO2018155351A1 WO 2018155351 A1 WO2018155351 A1 WO 2018155351A1 JP 2018005613 W JP2018005613 W JP 2018005613W WO 2018155351 A1 WO2018155351 A1 WO 2018155351A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
sound
video
playback
reproduction
Prior art date
Application number
PCT/JP2018/005613
Other languages
French (fr)
Japanese (ja)
Inventor
旭 谷口
敦宏 辻
幸 裕弘
坂井 剛
羊佑 塩田
浩充 森下
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2017190030A external-priority patent/JP2020065099A/en
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2018155351A1 publication Critical patent/WO2018155351A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/458Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Definitions

  • the present disclosure relates to a reproduction method, a reproduction system, and a reproduction apparatus for reproducing video content and sound content.
  • Patent Document 1 discloses a moving image playback apparatus that smoothly switches a moving image provided by streaming.
  • This disclosure provides a playback method that can reduce a sense of discomfort given to a user when video content and sound content are switched to different content.
  • the reproduction method acquires first content composed of first video content and first sound content that are independent from each other, and includes second video content and second sound content that are independent from each other. After the second content is acquired and the acquired first content is reproduced, the acquired second content is reproduced.
  • the method according to the present disclosure can reduce a sense of discomfort given to the user when the video content and the sound content are switched to different content.
  • FIG. 1 is a schematic diagram of a reproduction system according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of a hardware configuration of the playback device.
  • FIG. 3 is a block diagram illustrating an example of the hardware configuration of the server.
  • FIG. 4 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus.
  • FIG. 5 is a block diagram illustrating an example of a functional configuration of the reproduction system according to the embodiment.
  • FIG. 6 is a block diagram illustrating an example of a specific configuration of the playback unit.
  • FIG. 7 is a diagram illustrating an example of processing for switching from the first content to the second content.
  • FIG. 8 is a sequence diagram illustrating an example of a reproduction method by the reproduction system according to the embodiment.
  • FIG. 8 is a sequence diagram illustrating an example of a reproduction method by the reproduction system according to the embodiment.
  • FIG. 9 is a flowchart illustrating an example of the details of the reproduction process performed by the reproduction apparatus according to the embodiment.
  • FIG. 10 is a sequence diagram illustrating an example of a registration method by the reproduction system according to the embodiment.
  • FIG. 11 is a block diagram illustrating an example of a functional configuration of a reproduction system according to a modification of the embodiment.
  • FIG. 1 is a schematic diagram of a reproduction system according to an embodiment.
  • a playback device 100, a server 200, a communication network 300, and an information processing device 400 are shown.
  • the playback system 1 includes the playback device 100 and the server 200 among these components.
  • the playback system 1 may further include an information processing apparatus 400.
  • a plurality of playback devices 100 may be connected to the communication network 300.
  • a plurality of information processing devices 400 may be connected to the communication network 300.
  • the playback system 1 is a system for providing a first user with content configured by a combination of independent video content and sound content from the server 200 to the playback device 100.
  • One playback device 100 may correspond to one first user or a plurality of first users.
  • the reproduction system 1 includes a plurality of reproduction apparatuses 100
  • a plurality of first users may correspond to each of the plurality of reproduction apparatuses 100 in a one-to-one correspondence or a one-to-many correspondence. Also good.
  • the plurality of playback devices 100 may correspond to one first user.
  • one information processing apparatus 400 may correspond to one second user or a plurality of second users.
  • a plurality of second users may correspond to each of the plurality of information processing apparatuses 400, or one to many. It may be. Further, the plurality of information processing apparatuses 400 may correspond to one second user. For example, video content or sound content is provided to the server 200 via the information processing apparatus 400 from a second user such as a content creator.
  • the independent content is content generated on the assumption that the content itself is reproduced independently. That is, the reproduction time for reproducing the video content constituting the content once from the beginning to the end is often different from the reproduction time for reproducing the sound content once from the beginning to the end. Further, in the video content and the sound content constituting the content, the creator of the video content and the creator of the sound content are often different.
  • the playback system 1 can generate a large amount of content by generating content by combining video content and sound content that are independent of each other. For this reason, it is possible to reduce the shortage of content.
  • switching the first video content to the second video content during playback is more likely to give the user a greater sense of discomfort than switching the first video content to the second sound content during playback.
  • the present inventor has further reduced the uncomfortable feeling given to the user by performing a reproduction process for stopping the sound content at the timing when the video content ends.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of the playback device.
  • the playback device 100 includes a CPU 101 (Central Processing Unit), a main memory 102, a storage 103, a communication IF (Interface) 104, a display 105, and a speaker 106 as hardware configurations.
  • a CPU 101 Central Processing Unit
  • main memory 102 main memory
  • main memory 102 main memory
  • storage 103 storage
  • communication IF (Interface) 104 communication IF
  • display 105 display
  • speaker 106 speaker
  • the CPU 101 is a processor that executes a control program stored in the storage 103 or the like.
  • the main memory 102 is a volatile storage area used as a work area used when the CPU 101 executes a control program.
  • the storage 103 is a non-volatile storage area that holds a control program, content, and the like.
  • the communication IF 104 is a communication interface that communicates with the server 200 via the communication network 300.
  • the communication IF 104 is, for example, a wired LAN interface.
  • the communication IF 104 may be a wireless LAN interface.
  • the communication IF 104 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
  • the display 105 is a display device that displays a processing result in the CPU 101.
  • the display 105 displays, for example, video obtained by playing video content.
  • the display 105 is, for example, a liquid crystal display or an organic EL display.
  • Speaker 106 outputs the processing result in CPU 101.
  • the speaker 106 outputs, for example, sound or music obtained by playing sound content.
  • the hardware configuration of the server 200 will be described with reference to FIG.
  • FIG. 3 is a block diagram showing an example of the hardware configuration of the server.
  • the server 200 includes a CPU 201 (Central Processing Unit), a main memory 202, a storage 203, and a communication IF (Interface) 204 as hardware configurations.
  • CPU 201 Central Processing Unit
  • main memory 202 main memory
  • storage 203 main memory
  • communication IF Interface
  • the CPU 201 is a processor that executes a control program stored in the storage 203 or the like.
  • the main memory 202 is a volatile storage area used as a work area used when the CPU 201 executes a control program.
  • the storage 203 is a non-volatile storage area that holds a control program, content, and the like.
  • the communication IF 204 is a communication interface that communicates with the playback apparatus 100 or the information processing apparatus 400 via the communication network 300.
  • the communication IF 204 is, for example, a wired LAN interface.
  • the communication IF 204 may be a wireless LAN interface.
  • the communication IF 204 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
  • FIG. 4 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus.
  • the information processing apparatus 400 includes a CPU 401 (Central Processing Unit), a main memory 402, a storage 403, a communication IF (Interface) 404, an input IF (Interface) 405, as hardware configurations. Is provided.
  • a CPU 401 Central Processing Unit
  • main memory 402 main memory
  • storage 403 main memory
  • communication IF Interface
  • input IF Interface
  • the CPU 401 is a processor that executes a control program stored in the storage 403 or the like.
  • the main memory 402 is a volatile storage area used as a work area used when the CPU 401 executes a control program.
  • the storage 403 is a non-volatile storage area that holds a control program, content, and the like.
  • the communication IF 404 is a communication interface that communicates with the server 200 via the communication network 300.
  • the communication IF 404 is, for example, a wired LAN interface.
  • the communication IF 404 may be a wireless LAN interface.
  • the communication IF 404 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
  • the input IF 405 is an input device such as a numeric keypad, a keyboard, and a mouse.
  • FIG. 5 is a block diagram illustrating an example of a functional configuration of the reproduction system according to the embodiment.
  • the playback apparatus 100 includes a communication unit 110 and a playback unit 130.
  • the playback device 100 may further include a content DB (Database) 120.
  • the communication unit 110 acquires the first content from the server 200 via the communication network 300.
  • the first content includes first video content and first sound content that are independent of each other.
  • the communication unit 110 acquires the second content from the server 200 via the communication network 300.
  • the second content includes second video content and second sound content that are independent of each other.
  • the communication unit 110 is realized by the CPU 101, the main memory 102, the storage 103, and the communication IF 104, for example.
  • the content DB 120 stores the first content and the second content acquired by the communication unit 110.
  • the content DB 120 is realized by the storage 103, for example.
  • the first content and the second content stored in the content DB 120 are not limited to the content acquired by the communication unit 110 but may be content stored in advance or acquired by the communication unit 110. Content stored in advance and content stored in advance may be mixed.
  • the content DB 120 stores, for example, previously stored content before factory shipment.
  • reproducing unit 130 will be described with reference to FIGS. 6 and 7.
  • FIG. 6 is a block diagram showing an example of a specific configuration of the playback unit.
  • the reproduction unit 130 reproduces the first content C10 or the second content C20 acquired by the communication unit 110.
  • the playback unit 130 may perform streaming playback of the first content C10 or the second content C20 acquired by the communication unit 110, or read and play back the first content C10 or the second content C20 from the content DB 120. May be.
  • the playback unit 130 includes a video playback unit 131 and a sound playback unit 132.
  • the video playback unit 131 plays back video content. Specifically, the video reproduction unit 131 reproduces video content and displays the video obtained by the reproduction on the display 105.
  • the sound reproduction unit 132 reproduces sound content. Specifically, the sound reproduction unit 132 reproduces sound content and causes the speaker 106 to output sound obtained by the reproduction.
  • the playback unit 130 plays back the second content C20 after playing back the first content C10, for example, as shown in FIG.
  • the reproduction unit 130 reproduces the first video content C11 and the first sound content C12 in the first period, and the second video content C21 and the second audio content C21 in the second period after the first period.
  • the second sound content C22 is reproduced.
  • the reproduction unit 130 switches from reproduction of the first video content C11 to reproduction of the second video content C21 and switches from reproduction of the first sound content C12 to reproduction of the second sound content C22 at a specified timing.
  • the playback unit 130 stops the playback of the first sound content C12 and starts the playback of the second content C20 at the first timing when the playback of the first video content C11 of the first content C10 ends. Also good.
  • the playback time of the first video content C11 is shorter than the playback time of the first sound content C12
  • the playback unit 130 plays back the first sound content C12 even if the playback of the first sound content C12 has not ended. Stop at one timing.
  • the reproduction time is the time required to reproduce the content once from the beginning to the end at a single speed. That is, each of the first and second video contents C11 and C21 and the first and second sound contents C12 and C22 is a content that is played back with a playback time of a finite length.
  • each of the first and second sound contents C12 and C22 may be sound contents that are reproduced in an infinite loop.
  • the sound content to be played in an infinite loop is, for example, content including control information for causing the playback device 100 to play back the sound content from the beginning of the sound content at the timing when one playback ends.
  • the sound content that is played in an infinite loop is, for example, content that is configured to be played back by seamlessly connecting the end point and the start point of the sound content.
  • seamlessly connected and played back means that, for example, the sound at the end of the sound content and the sound at the start of the sound content include similar sounds. is there.
  • the similar sound means that both are included in a predetermined volume range and a predetermined frequency region.
  • the reproduction unit 130 may repeat the reproduction of the first sound content C12 when the reproduction of the first video content C11 continues even after the reproduction of the first sound content C12 is completed.
  • the playback unit 130 When the playback time of the first video content C11 is longer than the playback time of the first sound content C12, the playback unit 130 repeatedly plays back the first sound content C12, thereby playing back the first video content C11 during the first period. Then, the reproduction of the first sound content C12 is continued. Further, the reproduction unit 130 may repeatedly reproduce the first sound content C12 until the reproduction of the first video content C11 is completed.
  • the reproduction unit 130 may stop the reproduction of the first sound content C12 at the first timing by fading out. Further, the reproduction unit 130 may start reproduction of the second sound content C22 by fading in the reproduction of the second content C20.
  • FIG. 7 is a diagram for explaining an example of processing for switching from the first content to the second content.
  • the reproduction unit 130 reproduces the first sound content C12 during the first period ⁇ t11 during reproduction of the first video content C11.
  • the reproducing unit 130 repeatedly reproduces the first sound content C12 during the first period ⁇ t11.
  • the first period ⁇ t11 is at least twice as long as the reproduction time ⁇ t21 of the first sound content C12. Therefore, in the reproduction unit 130, the sound reproduction unit 132 reproduces the first sound content C12 three times, and reproduces the second sound content C22 at a timing t4 when the first period ⁇ t11 in the middle of the third reproduction ends. Switch to.
  • the video playback unit 131 switches to playback of the next second video content C21 because the playback of the first video content C11 ends at timing t4.
  • the sound reproduction unit 132 fades out the first sound content C12 and fades in the second sound content C22 at timing t4. For this reason, the sound reproduction unit 132 starts to decrease the reproduction volume of the first sound content C12 that is reproduced at the first volume at the timing t3 that is a fade-out period before the timing t4, and the second volume until the timing t4. Reduce the volume to.
  • the sound reproduction unit 132 starts reproduction of the second sound content C22 at the third volume from the timing t4, and increases the reproduction volume to the fourth volume before the timing t5 after the fade-in period.
  • the first to fourth sound volumes may be average sound volumes for a predetermined period.
  • the first volume and the fourth volume may be the same volume.
  • the second volume and the third volume may be the same volume.
  • the playback unit 130 may display a period of displaying credit information as a fade-out period in a predetermined period until the playback time of the first video content C11 ends, for example, when displaying credit information indicating the creator of the content. That is, the playback unit 130 may reduce the volume of the first sound content C12 from the first volume to the second volume during the period in which the credit information is displayed.
  • the credit information may be included in the content related information.
  • the credit information may or may not be included in the content related information of the video content.
  • the credit information may or may not be included in the content related information of the sound content.
  • the reproduction unit 130 is realized by, for example, the CPU 101, the main memory 102, the storage 103, the display 105, and the speaker 106.
  • the server 200 includes a database 210, a comparison unit 220, a generation unit 230, and a communication unit 240.
  • the database 210 includes a video content DB (Database) 211 and a sound content DB (Database) 212.
  • the video content DB 211 stores a plurality of independent video contents.
  • the video content DB 211 stores content related information corresponding to each of the plurality of video contents together with the plurality of video contents.
  • the sound content DB 212 stores a plurality of independent sound contents.
  • the sound content DB 212 stores content related information corresponding to each of the plurality of sound contents together with the plurality of sound contents.
  • the video content DB 211 stores video content acquired from the information processing apparatus 400 via the communication network 300 by the communication unit 240.
  • the sound content DB 212 stores sound content acquired from the information processing apparatus 400 via the communication network 300 by the communication unit 240.
  • Each of the video content DB 211 and the sound content DB 212 is realized by the storage 203, for example.
  • the content related information is, for example, content metadata (that is, attribute information).
  • content metadata that is, attribute information.
  • One set of metadata exists for one content, and includes information on reproduction time, author, ambient level, video ambient level, or sound ambient level, and content genre. Details of the ambient degree, the video ambient degree, and the sound ambient degree will be described later.
  • the playback time is information indicating the length of time when the content is played back.
  • the author is information indicating the author of the content, and includes information including the author's name and contact information.
  • the ambient degree is an ambient degree associated with the content.
  • the video ambient degree is the ambient degree associated with the video part included in the content.
  • the sound ambient degree is an ambient degree associated with a sound part included in the content.
  • the ambient degree of content and the like can be set by metadata.
  • Metadata is created in a predetermined format.
  • the index is obtained by analyzing the metadata according to the metadata format.
  • the index is an index associated with the content, and is an index expressed by a continuous value.
  • An example of the index is an estimated index that indicates the degree of attention the user is directed to the content being played back. More specifically, the index is an index that is an index having a smaller value as the degree of attention directed to the content being played by the user is greater, or the user is directed to the content being played. As the degree of attention directed is greater, an index having a larger value may be employed.
  • the former is also referred to as an ambient level and the latter is also referred to as a conscious level.
  • the degree of attention directed by the user increases, for example, it is more likely to continue watching the screen on which the video is displayed from the beginning to the end of the playback time of the content, and concentrate on viewing the output sound. It can be said that it is suitable.
  • the index may include brightness, saturation, hue, or the like that is an index related to the color of the video included in the content being played back, or volume or frequency distribution that is an index of the sound included in the content being played back Etc. may be included. Further, the index may include an index calculated by a predetermined calculation method from the plurality of indexes.
  • the ambient degree is an index expressed as a continuous value from 0 to 100, for example.
  • the degree of ambient is 0, it means that the degree of attention estimated to be directed by the user is the largest, and when the degree of ambient is 100, the degree of attention estimated to be directed by the user is the smallest. Then.
  • the ambient degree associated with the content can be calculated from the video ambient degree that is the ambient degree associated with the video part of the content and the sound ambient degree that is the ambient degree associated with the sound part of the content.
  • the video ambient degree is an example of a video index.
  • the sound ambient degree is an example of a sound index.
  • the video ambient degree may be calculated based on, for example, the brightness, saturation or hue of the video of the content, or the scene change mode. More specifically, it is calculated as follows.
  • the sound ambient degree may be calculated based on, for example, the volume of the sound of the content, the frequency distribution of the sound, or the change in volume. More specifically, it is calculated as follows.
  • any method can be adopted, but for example, an average or a weighted average can be used.
  • the weighted average weight is in the range from 0 to 1 and the video ambient degree weight is ⁇
  • the ambient degree of the content is expressed as (Equation 1) below.
  • Ambient degree of content ⁇ x (Video ambient degree) + (1- ⁇ ) x (Sound ambient degree) (Formula 1)
  • the weighting of the video ambient degree and the sound ambient is determined as follows, for example.
  • the weight of the video ambient degree is set to sound. It is effective to make it heavier than the weight of the ambient degree, that is, to make ⁇ larger than 0.5.
  • This threshold value can be about 50 inches or 70 inches in the length of the diagonal line of the display 105, for example.
  • may be changed by an input from the operator of the playback system 1, the provider of the content, or the user.
  • the operator of the playback system 1 can flexibly change the weight of the video ambient level and the sound ambient level. As a result, there is an advantage that it is possible to specify more flexible content suitable for the user's sense.
  • the video ambient level and the sound ambient level may be classified into a plurality of ranks according to the magnitude of the ambient level.
  • the plurality of ranges of ambient degrees that define the plurality of ranks of the video ambient degree and the plurality of ranges of ambient degrees that define the plurality of ranks of the sound ambient degree do not have to coincide with each other.
  • the video ambient degree may be classified as rank A in the range of 0 to 20
  • the sound ambient degree may be classified as rank A in the range of 0 to 30. That is, the video ambient degree and the sound ambient degree may be classified into a plurality of ranks within the same rank or different ambient degree ranges.
  • the video ambient degree and the sound ambient degree may be normalized so that the minimum value and the maximum value coincide.
  • content There can be a variety of content, but it is part of the environment, such as paintings on the wall or parts of wallpaper, floor or ceiling that are not often watched by users It may be content. Note that the content may be content that is assumed to be acquired in order to acquire information on news or culture or to obtain entertainment.
  • the server 200 may calculate the ambient degree using the above method using at least one of the content stored in the database 210 and the content related information.
  • the degree of ambient is calculated in this way, the content-related information may not include the degree of ambient.
  • the comparison unit 220 compares the video attribute information included in each of the plurality of video contents with the sound attribute information included in each of the plurality of sound contents. For example, when the genre of the video content matches the genre of the sound content, the comparison unit 220 determines that they are similar to each other.
  • the genre may include the author of the content and the date (or month, year) when the content was created.
  • the comparison unit 220 compares the video ambient degree and the sound ambient degree using a predetermined method, and determines whether or not they are similar.
  • the comparison unit 220 calculates the video ambient degree from the metadata included in the video attribute information using the above method, and calculates the sound ambient degree from the metadata included in the sound attribute information using the above method. It may be calculated.
  • the comparison unit 220 is realized by, for example, the CPU 201, the main memory 202, and the storage 203.
  • the generation unit 230 generates a plurality of contents composed of video content and sound content having attribute information similar to each other according to the comparison result by the comparison unit 220. That is, the generation unit 230 generates a plurality of contents composed of combinations of video content and sound content similar to each other.
  • the generation unit 230 is realized by the CPU 201, the main memory 202, and the storage 203, for example.
  • the communication unit 240 transmits two or more contents among the plurality of contents generated by the generation unit 230 to the playback device 100 via the communication network 300.
  • the communication unit 240 may transmit the content corresponding to the acquisition request to the playback device 100.
  • the communication unit 240 is realized by the communication IF 204, for example.
  • the information processing apparatus 400 includes a content DB 410, a registration unit 420, an input reception unit 430, and a communication unit 440.
  • the content DB 410 stores video content or sound content.
  • the video content or the sound content is, for example, content created by a second user such as a content creator. When the creator of the video content and the creator of the sound content are different, there are a plurality of second users.
  • the content DB 410 is realized by the storage 403, for example.
  • the registration unit 420 registers video content or sound content in the server 200 via the communication unit 440 according to information input by the second user to the input reception unit 430.
  • the registration unit 420 registers content-related information such as an ID for identifying the second user, content attribute information, and content playback time in association with the content.
  • the registration unit 420 causes the communication unit 440 to transmit content related information and content to the server 200 via the communication network 300.
  • the registration unit 420 is realized by, for example, the CPU 401, the main memory 402, and the storage 403.
  • the input reception unit 430 receives an input by the second user. Specifically, the input receiving unit 430 receives an input for the second user to register content in the server 200.
  • the input receiving unit 430 is realized by the input IF 405, for example.
  • FIG. 8 is a sequence diagram showing an example of a reproduction method by the reproduction system according to the embodiment.
  • the server 200 transmits the first content C10 to the playback device 100 via the communication network 300 (S11).
  • the playback device 100 receives the first content C10 transmitted by the server 200 via the communication network 300 (S21).
  • the server 200 transmits the second content C20 to the playback device 100 via the communication network 300 (S12).
  • the playback device 100 receives the second content C20 transmitted by the server 200 via the communication network 300 (S22).
  • the server 200 may transmit the first content C10 and the second content C20 to the playback device 100 together. Therefore, the playback device 100 may receive the first content C10 and the second content C20 together.
  • the playback device 100 plays back the received first content C10 and second content C20 (S23). Details of the reproduction processing by the reproduction apparatus 100 will be described later.
  • FIG. 9 is a flowchart showing an example of details of the reproduction processing by the reproduction apparatus according to the embodiment.
  • the playback unit 130 plays back the first content C10 (S31).
  • the video playback unit 131 of the playback unit 130 acquires the timing when the playback of the first video content C11 included in the first content C10 ends (S32). For example, the video reproduction unit 131 acquires the reproduction time of the first video content C11 from the content related information included in the first video content C11. Then, the video reproduction unit 131 sets the timing after the reproduction time of the first video content C11 from the timing when the reproduction of the first content C10 is started as the timing when the reproduction of the first video content C11 ends.
  • the sound reproducing unit 132 of the reproducing unit 130 acquires the timing when the reproduction of the first sound content C12 included in the first content C10 ends (S33). For example, the sound reproducing unit 132 acquires the reproduction time of the first sound content C12 from the content related information included in the first sound content C12. Then, the sound reproduction unit 132 sets the timing after the reproduction time of the first sound content C12 from the timing when the reproduction of the first content C10 is started as the timing when the reproduction of the first sound content C12 ends.
  • the playback unit 130 determines whether or not the playback of the first video content C11 ends before the playback of the first sound content C12 (S34). That is, the playback unit 130 determines whether or not the timing at which the playback of the first video content C11 ends is earlier than the timing at which the playback of the first sound content C12 ends.
  • the reproduction unit 130 determines whether the reproduction of the first video content C11 is completed. (S35).
  • the playback unit 130 determines that the playback of the first video content C11 has ended (Yes in S35)
  • the playback unit 130 stops the playback of the first sound content C12 and starts the playback of the second content (S36). That is, the playback unit 130 switches from playback of the first video content C11 to playback of the second video content C21 at a timing when playback of the first video content C11 ends, and from playback of the first sound content C12 to second. Switch to the playback of the sound content C22.
  • the playback unit 130 may end the playback process, or may perform the same playback process on the third content next to the second content C20.
  • the reproducing unit 130 determines that the reproduction of the first video content C11 has not ended (No in S35)
  • the reproducing unit 130 repeats Step S35. Therefore, the reproducing unit 130 waits until the reproduction of the first video content C11 is completed.
  • step S34 when the playback unit 130 determines that the playback of the first video content C11 ends after the timing when the playback of the first sound content C12 ends (No in S34), the playback of the first sound content C12 ends. It is determined whether or not (S37).
  • the reproduction unit 130 determines that the reproduction of the first sound content C12 has ended (Yes in S37), the reproduction unit 130 repeats the reproduction of the first sound content C12 (S38), and returns to step S34. In this case, in the next step S34, it is determined whether or not the reproduction of the first video content C11 ends before the reproduction of the first sound content C12 that is repeatedly reproduced.
  • the reproducing unit 130 determines that the reproduction of the first sound content C12 has not ended (No in S37), the reproducing unit 130 repeats Step S37. Therefore, the reproducing unit 130 stands by until the reproduction of the first sound content C12 is completed.
  • FIG. 10 is a sequence diagram showing an example of a registration method by the reproduction system according to the embodiment.
  • the registration unit 420 of the information processing device 400 selects one content from a plurality of video contents or a plurality of sound contents stored in the content DB 410 according to the input received by the input receiving unit 430 (S41). ).
  • the input receiving unit 430 receives input of content related information of the selected content (S42). As a result, the registration unit 420 associates the selected content with the received content-related information.
  • the communication unit 440 transmits the associated content related information together with the selected content to the server 200 via the communication network 300 (S43).
  • the communication unit 240 receives the content related information together with the content transmitted by the information processing apparatus 400 (S51).
  • the database 210 of the server 200 stores content related information together with the content received by the communication unit 240 (S52).
  • the playback method after playing back the first content C10 composed of the first video content C11 and the first sound content C12 that are independent from each other, the second video that is independent from each other.
  • the second content C20 composed of the content C21 and the second sound content C22 is reproduced. Therefore, the first sound content C12 can be switched to the second sound content C22 at the timing of switching the first video content C11 to the second video content C21. Therefore, it is possible to reduce a sense of discomfort given to the user when the video content and the sound content are switched to different content.
  • each of the first content C10 and the second content C20 is composed of a combination of video content and sound content having similar attribute information. For this reason, the impression given to the user can be a unified impression for the video content and the sound content. For this reason, even when the video content and the sound content independent from each other are combined and reproduced, the uncomfortable feeling given to the user can be effectively reduced.
  • the playback at the timing when the playback of the first video content C11 ends, the playback is switched from the first video content C11 to the second video content C21, and the first sound content C12 is changed to the second sound content C22. Switch and play. For this reason, the discomfort given to the user can be effectively reduced.
  • the playback of the first video content C11 continues even after the playback of the first sound content C12 is completed, the playback of the first sound content C12 is repeated. For this reason, during the reproduction of the first video content C11, the reproduction of the first sound content C12 can be continued. Therefore, the uncomfortable feeling given to the user can be effectively reduced.
  • the playback of the first sound content C12 when the playback of the first sound content C12 does not end at the timing when the playback of the first video content C11 ends, the playback of the first sound content C12 is stopped at the timing by fading out. To do. For this reason, switching of reproduction from the first sound content C12 to the second sound content C22 can be realized more naturally. Therefore, it is possible to effectively reduce the uncomfortable feeling given to the user when the video content and the sound content are switched to different content.
  • the playback of the second sound content C22 is started by fading in the playback of the second content C20. For this reason, switching of reproduction from the first sound content C12 to the second sound content C22 can be realized more naturally. Therefore, it is possible to effectively reduce the uncomfortable feeling given to the user when the video content and the sound content are switched to different content.
  • the server 200 includes the comparison unit 220 and the generation unit 230.
  • the playback device may include the comparison unit and the generation unit.
  • FIG. 11 is a block diagram illustrating an example of a functional configuration of a reproduction system according to a modification of the embodiment.
  • a reproduction system 1A according to the modification includes a server 200A having a configuration that does not include the comparison unit 220 and the generation unit 230, a comparison unit 140 that corresponds to the comparison unit 220, and a generation unit 150 that corresponds to the generation unit 230. 100A.
  • the communication unit 240 transmits a plurality of video contents stored in the video content DB 211 and a plurality of sound contents stored in the sound content DB 212 to the playback device 100A via the communication network 300.
  • the communication unit 110 receives a plurality of video contents and a plurality of sound contents transmitted by the server 200A via the communication network 300.
  • the communication unit 110 stores the received plurality of video contents and the plurality of sound contents in the content DB 120.
  • the comparison unit 140 compares the video attribute information included in each of the plurality of video contents with the sound attribute information included in each of the plurality of sound contents.
  • the generation unit 150 generates a plurality of contents composed of video content and sound content having attribute information similar to each other according to the comparison result by the comparison unit 140, and stores the generated plurality of contents in the content DB 120.
  • the reproducing unit 130 reproduces the second content C20 after reproducing the first content C10 among the plurality of contents stored in the content DB 120. Since the reproduction processing by the reproduction unit 130 is the same as that in the embodiment, description thereof is omitted.
  • the reproducing apparatus 100 in the above embodiment may display an image related to the ambient degree together with the contents C10 and C20.
  • the image may include at least one of an image indicating the ambient degree of the contents C10 and C20 and an image indicating the range of the ambient degree received by a receiving unit such as a remote controller (not shown).
  • the user By displaying an image relating to the ambient degree together with the contents C10 and C20 on the display 105, the user visually recognizes the image together with the reproduced contents C10 and C20. If the user visually recognizes an image indicating the degree of ambient, the user can recognize the degree of ambient of the contents C10 and C20 that are currently reproduced. Further, the user can recognize the range of the ambient degree designated by the user by visually recognizing the image indicating the range of the ambient degree. By recognizing these, for example, the user can instruct the playback device 100 to change the specified ambient degree higher or lower than the current degree through the reception unit.
  • a sound relating to the ambient degree may be output by the speaker 106, and the same effect as described above can be obtained.
  • the playback device specifies the index associated with the content within the range of the index, and thereby the content to be played back Can be specified. At that time, the user need not recall the search key. The user can specify the content to be played back by the playback device simply by specifying the rough value of the index associated with the content within the range. In this way, the playback device enables more flexible content specification. Also, since flexible content specification is possible, the problem of increase in processing load and power consumption of the playback device when determination of content reflecting the user's intention fails can be avoided.
  • the playback device enables more flexible content specification by using, as a specific index, an estimated index that indicates the degree of attention that the user directs to the content being played back.
  • the playback device, server, or information processing device calculates an index associated with the content based on the degree of attention that the user has directed to each of the video and sound included in the content.
  • the content index can be calculated in consideration of the video and sound included in the content.
  • the playback device, server, or information processing device calculates an index associated with the content by a weighted average obtained by increasing the weight of the sound index of the video index and the sound index.
  • the playback device, server, or information processing device calculates an index associated with the content by a weighted average obtained by increasing the weight of the video index of the video index and the sound index.
  • the index associated with the content the index of the index used for specifying the content is set with respect to the degree of the attention directed by the user by relatively increasing the contribution of the degree of attention directed by the person to the video. It can be an indicator that matches the sense of
  • the playback device, server, or information processing device can calculate the video index by specifically using the brightness, saturation, hue, or scene change mode of the video included in the content.
  • the playback device, server, or information processing device can calculate the sound index by specifically using the volume, frequency distribution, or volume change mode included in the content.
  • the playback device, server, or information processing device can cause the user to recognize the index of the content by presenting the index associated with the content along with the content being played back to the user. Then, it is possible to cause the user to make a determination as to whether or not the content that the user wants to present on the playback apparatus is compatible with the index range designated by the user.
  • both the index of the video content and sound content to be played back are included in the range specified by the user. Can do.
  • the user can play both the video content and the sound content that are estimated to have the same level of attention by the playback device.
  • the playback device can cause the content provider to recognize the index associated with the content by presenting the index when the content is stored in the server in advance.
  • the playback device can make the content provider recognize the adjusted content index after adjusting the content.
  • the content provider recognizes the index of the adjusted content, confirms the result of the adjustment made to the content provided by itself, and determines whether to store it in the server based on the result Can take action.
  • each component is realized by executing a software program suitable for each component, but may be configured by dedicated hardware.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the reproduction method of each of the above embodiments is the following program.
  • this program acquires the first content composed of the first video content and the first sound content independent from each other to the computer, and is composed of the second video content and the second sound content independent from each other. After the acquired second content is acquired and the acquired first content is reproduced, a reproduction method for reproducing the acquired second content is executed.
  • the playback method, playback system, and playback device according to one or more aspects of the present invention have been described based on the embodiment, but the present invention is not limited to this embodiment. Unless it deviates from the gist of the present invention, one or more of the present invention may be applied to various modifications that can be conceived by those skilled in the art, or forms constructed by combining components in different embodiments. It may be included within the scope of the embodiments.
  • the playback unit 130 stops the playback of the first sound content C12 at the first timing when the playback of the first video content C11 of the first content C10 ends, and although the reproduction of the second content C20 is started, the present invention is not limited to this.
  • the ambient level of the video content is larger than a predetermined value and the ambient level of the sound content is smaller than the predetermined value, as described above, at the timing when the reproduction of the first audio content C12 ends, the first video content C11 Even if the process of switching to the second video content C21 is performed on the way, the uncomfortable feeling given to the user is small.
  • the playback unit 130 may determine whether the video ambient degree is larger than a predetermined value (or a predetermined rank) and whether the sound ambient degree is smaller than a predetermined value (or a predetermined rank). Then, as a result of the determination, when the video ambient degree is larger than a predetermined value (or predetermined rank) and the sound ambient degree is smaller than the predetermined value (or predetermined rank), the reproducing unit 130 determines that the first content C10 The reproduction of the first video content C11 may be stopped and the reproduction of the second content C20 may be started at the timing when the reproduction of the one-sound content C12 ends.
  • the sound ambient degree is described based on the volume of the sound of the content, the frequency distribution of the sound, or the change of the volume.
  • the present invention is not limited to this.
  • the sound frequency characteristics the approximation with the so-called “1 / f fluctuation” characteristic, the number of overtone components, the regularity of the timbre waveform (frequency of several Hz or less) Area) and the like.
  • the sound ambient level is an index at the research stage compared to the video ambient level, but the mid-range sound around 200 Hz is equivalent to vocals and human speech, and is likely to be heard by humans. I know it. Therefore, it is considered that the degree of attention directed by the user increases, and the degree of consciousness increases (the degree of ambient decreases).
  • the human brain tries to understand what is different from nature by unknowingly complementing it, so when listening to sounds that are different from the natural world, it will use brain resources, increasing the degree of consciousness (the degree of ambient is increased). It is thought that). Therefore, music that is composed to increase the degree of user's attention is not only highly conscious (low ambient), but also sounds that exist in the natural world, such as river buzz, can be recorded in a recording environment (such as a microphone or Depending on the performance of the recording device, the degree of ambient may be reduced.
  • a recording environment such as a microphone or Depending on the performance of the recording device, the degree of ambient may be reduced.
  • This disclosure can be applied to a playback method or the like that can reduce a sense of discomfort given to a user when video content and sound content are switched to different content.

Abstract

This reproduction method comprises: acquiring (S21) a first content (C10) that is formed of a first video content (C11) and a first sound content (C12) independent of each other; acquiring (S22) a second content (C20) that is formed of a second video content (C21) and a second sound content (C22) independent of each other; and reproducing (S23) the acquired first content (C10), then reproducing the acquired second content (C20).

Description

再生方法、再生システム、および、再生装置REPRODUCTION METHOD, REPRODUCTION SYSTEM, AND REPRODUCTION DEVICE
 本開示は、映像コンテンツおよび音コンテンツを再生する再生方法、再生システム、および、再生装置に関する。 The present disclosure relates to a reproduction method, a reproduction system, and a reproduction apparatus for reproducing video content and sound content.
 特許文献1には、ストリーミング提供される動画をスムースに切り換える動画再生装置が開示されている。 Patent Document 1 discloses a moving image playback apparatus that smoothly switches a moving image provided by streaming.
特開2010-41246号公報JP 2010-41246 A
 本開示は、映像コンテンツおよび音コンテンツを別のコンテンツに切り替えたときにユーザに与える違和感を低減することができる再生方法などを提供する。 This disclosure provides a playback method that can reduce a sense of discomfort given to a user when video content and sound content are switched to different content.
 本開示における再生方法は、互いに独立している第1映像コンテンツおよび第1音コンテンツで構成される第1コンテンツを取得し、互いに独立している第2映像コンテンツおよび第2音コンテンツで構成される第2コンテンツを取得し、取得した前記第1コンテンツを再生した後で、取得した前記第2コンテンツを再生する。 The reproduction method according to the present disclosure acquires first content composed of first video content and first sound content that are independent from each other, and includes second video content and second sound content that are independent from each other. After the second content is acquired and the acquired first content is reproduced, the acquired second content is reproduced.
 なお、これらの全般的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。 These general or specific aspects may be realized by a system, an apparatus, an integrated circuit, a computer program, or a recording medium such as a computer-readable CD-ROM. The system, the apparatus, the integrated circuit, and the computer program And any combination of recording media.
 本開示における方法は、映像コンテンツおよび音コンテンツを別のコンテンツに切り替えたときにユーザに与える違和感を低減することができる。 The method according to the present disclosure can reduce a sense of discomfort given to the user when the video content and the sound content are switched to different content.
図1は、実施の形態に係る再生システムの概略図である。FIG. 1 is a schematic diagram of a reproduction system according to an embodiment. 図2は、再生装置のハードウェア構成の一例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of a hardware configuration of the playback device. 図3は、サーバのハードウェア構成の一例を示すブロック図である。FIG. 3 is a block diagram illustrating an example of the hardware configuration of the server. 図4は、情報処理装置のハードウェア構成の一例を示すブロック図である。FIG. 4 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus. 図5は、実施の形態に係る再生システムの機能構成の一例を示すブロック図である。FIG. 5 is a block diagram illustrating an example of a functional configuration of the reproduction system according to the embodiment. 図6は、再生部の具体的な構成の一例を示すブロック図である。FIG. 6 is a block diagram illustrating an example of a specific configuration of the playback unit. 図7は、第1コンテンツから第2コンテンツへ切り替える処理の一例を説明する図である。FIG. 7 is a diagram illustrating an example of processing for switching from the first content to the second content. 図8は、実施の形態に係る再生システムによる再生方法の一例を示すシーケンス図である。FIG. 8 is a sequence diagram illustrating an example of a reproduction method by the reproduction system according to the embodiment. 図9は、実施の形態に係る再生装置による再生処理の詳細の一例を示すフローチャートである。FIG. 9 is a flowchart illustrating an example of the details of the reproduction process performed by the reproduction apparatus according to the embodiment. 図10は、実施の形態に係る再生システムによる登録方法の一例を示すシーケンス図である。FIG. 10 is a sequence diagram illustrating an example of a registration method by the reproduction system according to the embodiment. 図11は、実施の形態の変形例に係る再生システムの機能構成の一例を示すブロック図である。FIG. 11 is a block diagram illustrating an example of a functional configuration of a reproduction system according to a modification of the embodiment.
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。 Hereinafter, embodiments will be described in detail with reference to the drawings as appropriate. However, more detailed description than necessary may be omitted. For example, detailed descriptions of already well-known matters and repeated descriptions for substantially the same configuration may be omitted. This is to avoid the following description from becoming unnecessarily redundant and to facilitate understanding by those skilled in the art.
 なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。 In addition, the inventor provides the accompanying drawings and the following description in order for those skilled in the art to fully understand the present disclosure, and is not intended to limit the claimed subject matter. .
 (実施の形態)
 以下、図1~図11を用いて、実施の形態を説明する。
(Embodiment)
The embodiment will be described below with reference to FIGS.
 [1-1.構成]
 図1は、実施の形態に係る再生システムの概略図である。
[1-1. Constitution]
FIG. 1 is a schematic diagram of a reproduction system according to an embodiment.
 具体的には、図1において、再生装置100、サーバ200、通信ネットワーク300、および情報処理装置400が示されている。例えば、再生システム1は、これらの構成要素のうち、再生装置100およびサーバ200を備える。また、再生システム1は、さらに、情報処理装置400を備えていてもよい。なお、再生システム1では、複数の再生装置100が通信ネットワーク300に接続されていてもよい。また、再生システム1では、複数の情報処理装置400が通信ネットワーク300に接続されていてもよい。 Specifically, in FIG. 1, a playback device 100, a server 200, a communication network 300, and an information processing device 400 are shown. For example, the playback system 1 includes the playback device 100 and the server 200 among these components. The playback system 1 may further include an information processing apparatus 400. In the playback system 1, a plurality of playback devices 100 may be connected to the communication network 300. In the reproduction system 1, a plurality of information processing devices 400 may be connected to the communication network 300.
 再生システム1は、サーバ200から再生装置100に、互いに独立した映像コンテンツおよび音コンテンツの組合せにより構成されるコンテンツを第1のユーザに提供するためのシステムである。1つの再生装置100には、1人の第1のユーザが対応していてもよいし、複数人の第1のユーザが対応してもよい。再生システム1が複数の再生装置100を含む場合、複数の再生装置100それぞれには、複数人の第1のユーザが1対1で対応していてもよいし、1対多で対応していてもよい。また、複数の再生装置100は、1人の第1のユーザに対応していてもよい。同様に、1つの情報処理装置400には、1人の第2のユーザが対応していてもよいし、複数人の第2のユーザが対応してもよい。再生システム1が複数の情報処理装置400を含む場合、複数の情報処理装置400それぞれには、複数人の第2のユーザが1対1で対応していてもよいし、1対多で対応していてもよい。また、複数の情報処理装置400は、1人の第2のユーザに対応していてもよい。サーバ200には、例えば、コンテンツの作者などの第2のユーザから情報処理装置400を介して映像コンテンツまたは音コンテンツが提供されている。 The playback system 1 is a system for providing a first user with content configured by a combination of independent video content and sound content from the server 200 to the playback device 100. One playback device 100 may correspond to one first user or a plurality of first users. When the reproduction system 1 includes a plurality of reproduction apparatuses 100, a plurality of first users may correspond to each of the plurality of reproduction apparatuses 100 in a one-to-one correspondence or a one-to-many correspondence. Also good. Further, the plurality of playback devices 100 may correspond to one first user. Similarly, one information processing apparatus 400 may correspond to one second user or a plurality of second users. When the reproduction system 1 includes a plurality of information processing apparatuses 400, a plurality of second users may correspond to each of the plurality of information processing apparatuses 400, or one to many. It may be. Further, the plurality of information processing apparatuses 400 may correspond to one second user. For example, video content or sound content is provided to the server 200 via the information processing apparatus 400 from a second user such as a content creator.
 ここで、独立したコンテンツとは、コンテンツ自身が独立して再生されることを前提に生成されたコンテンツである。つまり、コンテンツを構成する映像コンテンツを始めから終わりまで1回再生する再生時間と、音コンテンツを始めから終わりまで1回再生する再生時間とは異なっていることが多い。また、コンテンツを構成する映像コンテンツおよび音コンテンツにおいて、当該映像コンテンツの作者と、当該音コンテンツの作者は異なっていることが多い。 Here, the independent content is content generated on the assumption that the content itself is reproduced independently. That is, the reproduction time for reproducing the video content constituting the content once from the beginning to the end is often different from the reproduction time for reproducing the sound content once from the beginning to the end. Further, in the video content and the sound content constituting the content, the creator of the video content and the creator of the sound content are often different.
 このように、再生システム1では、互いに独立した映像コンテンツおよび音コンテンツを組み合わせることでコンテンツを生成することで、多くのコンテンツを生成することができる。このためコンテンツが不足することを低減することができる。 As described above, the playback system 1 can generate a large amount of content by generating content by combining video content and sound content that are independent of each other. For this reason, it is possible to reduce the shortage of content.
 一方で、互いに独立した映像コンテンツおよび音コンテンツを組み合わせる場合、上述したように、映像コンテンツの再生時間と音コンテンツの再生時間とが異なっていることが多くなる。このため、第1コンテンツを再生した後に、第2コンテンツに切り替えて再生する場合、第1コンテンツを構成する第1映像コンテンツおよび第1音コンテンツの一方の再生が終了しても他方の再生が終了しないこととなる。つまり、第1コンテンツから第2コンテンツへ、規定のタイミングで映像コンテンツおよび音コンテンツの再生を切り替える場合、第1映像コンテンツの再生途中で第2映像コンテンツに切り替えるか、第1音コンテンツの再生途中で第2音コンテンツに切り替えるかを行うこととなる。 On the other hand, when video content and sound content that are independent from each other are combined, the playback time of the video content and the playback time of the sound content are often different as described above. For this reason, when the first content is reproduced and then switched to the second content for reproduction, even if one of the first video content and the first sound content constituting the first content is reproduced, the other reproduction is completed. Will not. That is, when switching the playback of video content and sound content from the first content to the second content at a specified timing, switching to the second video content during playback of the first video content or during playback of the first sound content Whether to switch to the second sound content will be performed.
 この場合、第1映像コンテンツを再生途中で第2映像コンテンツに切り替える方が、第1音コンテンツを再生途中で第2音コンテンツに切り替えるよりもユーザに大きな違和感を与えやすい。このため、本発明者は、映像コンテンツが終了するタイミングで音コンテンツを停止させる再生処理を行うことでユーザに与える違和感をより低減させることに至った。 In this case, switching the first video content to the second video content during playback is more likely to give the user a greater sense of discomfort than switching the first video content to the second sound content during playback. For this reason, the present inventor has further reduced the uncomfortable feeling given to the user by performing a reproduction process for stopping the sound content at the timing when the video content ends.
 以下、上記再生処理を行うための再生システム1の構成について具体的に説明する。 Hereinafter, the configuration of the playback system 1 for performing the playback process will be described in detail.
 次に、再生装置100のハードウェア構成について図2を用いて説明する。 Next, the hardware configuration of the playback apparatus 100 will be described with reference to FIG.
 図2は、再生装置のハードウェア構成の一例を示すブロック図である。 FIG. 2 is a block diagram showing an example of the hardware configuration of the playback device.
 図2に示すように、再生装置100は、ハードウェア構成として、CPU101(Central Processing Unit)と、メインメモリ102と、ストレージ103と、通信IF(Interface)104と、ディスプレイ105と、スピーカ106とを備える。 As shown in FIG. 2, the playback device 100 includes a CPU 101 (Central Processing Unit), a main memory 102, a storage 103, a communication IF (Interface) 104, a display 105, and a speaker 106 as hardware configurations. Prepare.
 CPU101は、ストレージ103等に記憶された制御プログラムを実行するプロセッサである。 The CPU 101 is a processor that executes a control program stored in the storage 103 or the like.
 メインメモリ102は、CPU101が制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域である。 The main memory 102 is a volatile storage area used as a work area used when the CPU 101 executes a control program.
 ストレージ103は、制御プログラム、コンテンツなどを保持する不揮発性の記憶領域である。 The storage 103 is a non-volatile storage area that holds a control program, content, and the like.
 通信IF104は、通信ネットワーク300を介してサーバ200と通信する通信インタフェースである。通信IF104は、例えば、有線LANインタフェースである。なお、通信IF104は、無線LANインタフェースであってもよい。また、通信IF104は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。 The communication IF 104 is a communication interface that communicates with the server 200 via the communication network 300. The communication IF 104 is, for example, a wired LAN interface. The communication IF 104 may be a wireless LAN interface. Further, the communication IF 104 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
 ディスプレイ105は、CPU101での処理結果を表示する表示装置である。ディスプレイ105は、例えば、映像コンテンツを再生することで得られる映像を表示する。ディスプレイ105は、例えば、液晶ディスプレイ、有機ELディスプレイである。 The display 105 is a display device that displays a processing result in the CPU 101. The display 105 displays, for example, video obtained by playing video content. The display 105 is, for example, a liquid crystal display or an organic EL display.
 スピーカ106は、CPU101での処理結果を出力する。スピーカ106は、例えば、音コンテンツを再生することで得られる音または音楽を出力する。 Speaker 106 outputs the processing result in CPU 101. The speaker 106 outputs, for example, sound or music obtained by playing sound content.
 サーバ200のハードウェア構成について図3を用いて説明する。 The hardware configuration of the server 200 will be described with reference to FIG.
 図3は、サーバのハードウェア構成の一例を示すブロック図である。 FIG. 3 is a block diagram showing an example of the hardware configuration of the server.
 図3に示すように、サーバ200は、ハードウェア構成として、CPU201(Central Processing Unit)と、メインメモリ202と、ストレージ203と、通信IF(Interface)204とを備える。 As shown in FIG. 3, the server 200 includes a CPU 201 (Central Processing Unit), a main memory 202, a storage 203, and a communication IF (Interface) 204 as hardware configurations.
 CPU201は、ストレージ203等に記憶された制御プログラムを実行するプロセッサである。 The CPU 201 is a processor that executes a control program stored in the storage 203 or the like.
 メインメモリ202は、CPU201が制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域である。 The main memory 202 is a volatile storage area used as a work area used when the CPU 201 executes a control program.
 ストレージ203は、制御プログラム、コンテンツなどを保持する不揮発性の記憶領域である。 The storage 203 is a non-volatile storage area that holds a control program, content, and the like.
 通信IF204は、通信ネットワーク300を介して再生装置100または情報処理装置400と通信する通信インタフェースである。通信IF204は、例えば、有線LANインタフェースである。なお、通信IF204は、無線LANインタフェースであってもよい。また、通信IF204は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。 The communication IF 204 is a communication interface that communicates with the playback apparatus 100 or the information processing apparatus 400 via the communication network 300. The communication IF 204 is, for example, a wired LAN interface. Note that the communication IF 204 may be a wireless LAN interface. The communication IF 204 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
 情報処理装置400のハードウェア構成について図4を用いて説明する。 The hardware configuration of the information processing apparatus 400 will be described with reference to FIG.
 図4は、情報処理装置のハードウェア構成の一例を示すブロック図である。 FIG. 4 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus.
 図4に示すように、情報処理装置400は、ハードウェア構成として、CPU401(Central Processing Unit)と、メインメモリ402と、ストレージ403と、通信IF(Interface)404と、入力IF(Interface)405とを備える。 As shown in FIG. 4, the information processing apparatus 400 includes a CPU 401 (Central Processing Unit), a main memory 402, a storage 403, a communication IF (Interface) 404, an input IF (Interface) 405, as hardware configurations. Is provided.
 CPU401は、ストレージ403等に記憶された制御プログラムを実行するプロセッサである。 The CPU 401 is a processor that executes a control program stored in the storage 403 or the like.
 メインメモリ402は、CPU401が制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域である。 The main memory 402 is a volatile storage area used as a work area used when the CPU 401 executes a control program.
 ストレージ403は、制御プログラム、コンテンツなどを保持する不揮発性の記憶領域である。 The storage 403 is a non-volatile storage area that holds a control program, content, and the like.
 通信IF404は、通信ネットワーク300を介してサーバ200と通信する通信インタフェースである。通信IF404は、例えば、有線LANインタフェースである。なお、通信IF404は、無線LANインタフェースであってもよい。また、通信IF404は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。 The communication IF 404 is a communication interface that communicates with the server 200 via the communication network 300. The communication IF 404 is, for example, a wired LAN interface. Note that the communication IF 404 may be a wireless LAN interface. The communication IF 404 is not limited to a LAN interface, and may be any communication interface as long as it can establish a communication connection with the communication network 300.
 入力IF405は、例えば、テンキー、キーボード、マウスなどの入力装置である。 The input IF 405 is an input device such as a numeric keypad, a keyboard, and a mouse.
 次に、再生システム1の機能構成について図5を用いて説明する。 Next, the functional configuration of the playback system 1 will be described with reference to FIG.
 図5は、実施の形態に係る再生システムの機能構成の一例を示すブロック図である。 FIG. 5 is a block diagram illustrating an example of a functional configuration of the reproduction system according to the embodiment.
 まず、再生装置100の機能構成について説明する。 First, the functional configuration of the playback apparatus 100 will be described.
 再生装置100は、通信部110と、再生部130とを備える。再生装置100は、さらに、コンテンツDB(Database)120を備えていてもよい。 The playback apparatus 100 includes a communication unit 110 and a playback unit 130. The playback device 100 may further include a content DB (Database) 120.
 通信部110は、通信ネットワーク300を介してサーバ200から、第1コンテンツを取得する。第1コンテンツは、互いに独立している第1映像コンテンツおよび第1音コンテンツで構成される。また、通信部110は、通信ネットワーク300を介してサーバ200から、第2コンテンツを取得する。第2コンテンツは、互いに独立している第2映像コンテンツおよび第2音コンテンツで構成される。通信部110は、例えば、CPU101、メインメモリ102、ストレージ103、および通信IF104により実現される。 The communication unit 110 acquires the first content from the server 200 via the communication network 300. The first content includes first video content and first sound content that are independent of each other. Further, the communication unit 110 acquires the second content from the server 200 via the communication network 300. The second content includes second video content and second sound content that are independent of each other. The communication unit 110 is realized by the CPU 101, the main memory 102, the storage 103, and the communication IF 104, for example.
 コンテンツDB120は、通信部110により取得された第1コンテンツおよび第2コンテンツを記憶する。コンテンツDB120は、例えば、ストレージ103により実現される。なお、コンテンツDB120が記憶している第1コンテンツおよび第2コンテンツは、通信部110により取得されたコンテンツに限らずに、予め記憶しているコンテンツであってもよいし、通信部110により取得されたコンテンツと、予め記憶しているコンテンツとが混在していてもよい。なお、コンテンツDB120は、例えば、予め記憶しているコンテンツを工場出荷前に記憶する。 The content DB 120 stores the first content and the second content acquired by the communication unit 110. The content DB 120 is realized by the storage 103, for example. The first content and the second content stored in the content DB 120 are not limited to the content acquired by the communication unit 110 but may be content stored in advance or acquired by the communication unit 110. Content stored in advance and content stored in advance may be mixed. The content DB 120 stores, for example, previously stored content before factory shipment.
 ここで、図6および図7を用いて再生部130について説明する。 Here, the reproducing unit 130 will be described with reference to FIGS. 6 and 7.
 図6は、再生部の具体的な構成の一例を示すブロック図である。 FIG. 6 is a block diagram showing an example of a specific configuration of the playback unit.
 再生部130は、通信部110により取得された第1コンテンツC10または第2コンテンツC20を再生する。なお、再生部130は、通信部110により取得された第1コンテンツC10または第2コンテンツC20を、ストリーミング再生してもよいし、コンテンツDB120から第1コンテンツC10または第2コンテンツC20を読み出して再生してもよい。 The reproduction unit 130 reproduces the first content C10 or the second content C20 acquired by the communication unit 110. Note that the playback unit 130 may perform streaming playback of the first content C10 or the second content C20 acquired by the communication unit 110, or read and play back the first content C10 or the second content C20 from the content DB 120. May be.
 再生部130は、映像再生部131と、音再生部132とを有する。 The playback unit 130 includes a video playback unit 131 and a sound playback unit 132.
 映像再生部131は、映像コンテンツを再生する。映像再生部131は、具体的には、映像コンテンツを再生し、再生することで得られた映像をディスプレイ105に表示する。 The video playback unit 131 plays back video content. Specifically, the video reproduction unit 131 reproduces video content and displays the video obtained by the reproduction on the display 105.
 音再生部132は、音コンテンツを再生する。音再生部132は、具体的には、音コンテンツを再生し、再生することで得られた音をスピーカ106に出力させる。 The sound reproduction unit 132 reproduces sound content. Specifically, the sound reproduction unit 132 reproduces sound content and causes the speaker 106 to output sound obtained by the reproduction.
 具体的には、再生部130は、例えば図7に示すように、第1コンテンツC10を再生した後で、第2コンテンツC20を再生する。再生部130は、例えば、第1コンテンツC10の再生として、第1期間において第1映像コンテンツC11および第1音コンテンツC12を再生し、第1期間の後の第2期間において第2映像コンテンツC21および第2音コンテンツC22を再生する。再生部130は、規定のタイミングで、第1映像コンテンツC11の再生から第2映像コンテンツC21の再生に切り替え、かつ、第1音コンテンツC12の再生から第2音コンテンツC22の再生に切り替える。 Specifically, the playback unit 130 plays back the second content C20 after playing back the first content C10, for example, as shown in FIG. For example, as the reproduction of the first content C10, the reproduction unit 130 reproduces the first video content C11 and the first sound content C12 in the first period, and the second video content C21 and the second audio content C21 in the second period after the first period. The second sound content C22 is reproduced. The reproduction unit 130 switches from reproduction of the first video content C11 to reproduction of the second video content C21 and switches from reproduction of the first sound content C12 to reproduction of the second sound content C22 at a specified timing.
 再生部130は、例えば、第1コンテンツC10の第1映像コンテンツC11の再生が終了する第1タイミングで、第1音コンテンツC12の再生を停止し、かつ、第2コンテンツC20の再生を開始してもよい。再生部130は、第1映像コンテンツC11の再生時間が第1音コンテンツC12の再生時間より短い場合、第1音コンテンツC12の再生が終了していなくても、第1音コンテンツC12の再生を第1タイミングに合わせて停止する。なお、再生時間とは、コンテンツを始めから終わりまで1倍速で1回再生したときに要する時間である。つまり、第1、第2映像コンテンツC11、C21、および、第1、第2音コンテンツC12、C22のそれぞれは、有限の長さの再生時間で再生されるコンテンツである。 For example, the playback unit 130 stops the playback of the first sound content C12 and starts the playback of the second content C20 at the first timing when the playback of the first video content C11 of the first content C10 ends. Also good. When the playback time of the first video content C11 is shorter than the playback time of the first sound content C12, the playback unit 130 plays back the first sound content C12 even if the playback of the first sound content C12 has not ended. Stop at one timing. Note that the reproduction time is the time required to reproduce the content once from the beginning to the end at a single speed. That is, each of the first and second video contents C11 and C21 and the first and second sound contents C12 and C22 is a content that is played back with a playback time of a finite length.
 なお、第1、第2音コンテンツC12、C22のそれぞれは、無限ループ再生される音コンテンツであってもよい。無限ループ再生される音コンテンツとは、例えば、1回の再生が終了するタイミングで、当該音コンテンツの始めから当該音コンテンツを再生装置100に再生させるための制御情報を含むコンテンツである。また、無限ループ再生される音コンテンツとは、例えば、当該音コンテンツの終了時点と、開始時点とがシームレスに接続されて再生されるように構成されているコンテンツである。ここで、シームレスに接続されて再生されるように構成されているとは、例えば、音コンテンツの終了時点での音と、当該音コンテンツの開始時点での音とが類似する音を含むことである。類似する音とは、両者が所定の音量の範囲内および所定の周波数領域内に含まれていることである。 Note that each of the first and second sound contents C12 and C22 may be sound contents that are reproduced in an infinite loop. The sound content to be played in an infinite loop is, for example, content including control information for causing the playback device 100 to play back the sound content from the beginning of the sound content at the timing when one playback ends. In addition, the sound content that is played in an infinite loop is, for example, content that is configured to be played back by seamlessly connecting the end point and the start point of the sound content. Here, seamlessly connected and played back means that, for example, the sound at the end of the sound content and the sound at the start of the sound content include similar sounds. is there. The similar sound means that both are included in a predetermined volume range and a predetermined frequency region.
 また、再生部130は、第1音コンテンツC12の再生が終了しても第1映像コンテンツC11の再生が継続する場合、第1音コンテンツC12の再生を繰り返してもよい。再生部130は、第1映像コンテンツC11の再生時間が第1音コンテンツC12の再生時間より長い場合、第1音コンテンツC12を繰り返し再生することで、第1映像コンテンツC11を再生中の第1期間において第1音コンテンツC12の再生を継続させる。また、再生部130は、第1映像コンテンツC11の再生が終了するまで第1音コンテンツC12を繰り返し再生してもよい。 Further, the reproduction unit 130 may repeat the reproduction of the first sound content C12 when the reproduction of the first video content C11 continues even after the reproduction of the first sound content C12 is completed. When the playback time of the first video content C11 is longer than the playback time of the first sound content C12, the playback unit 130 repeatedly plays back the first sound content C12, thereby playing back the first video content C11 during the first period. Then, the reproduction of the first sound content C12 is continued. Further, the reproduction unit 130 may repeatedly reproduce the first sound content C12 until the reproduction of the first video content C11 is completed.
 また、再生部130は、第1タイミングで第1音コンテンツC12の再生が終了しない場合、フェードアウトさせることにより第1タイミングで第1音コンテンツC12の再生を停止してもよい。また、再生部130は、第2コンテンツC20の再生において、フェードインさせることにより第2音コンテンツC22の再生を開始してもよい。 Further, when the reproduction of the first sound content C12 does not end at the first timing, the reproduction unit 130 may stop the reproduction of the first sound content C12 at the first timing by fading out. Further, the reproduction unit 130 may start reproduction of the second sound content C22 by fading in the reproduction of the second content C20.
 図7は、第1コンテンツから第2コンテンツへ切り替える処理の一例を説明する図である。 FIG. 7 is a diagram for explaining an example of processing for switching from the first content to the second content.
 図7に示すように、再生部130は、第1映像コンテンツC11を再生中の第1期間Δt11中において、第1音コンテンツC12を再生する。再生部130は、第1期間Δt11中に第1音コンテンツC12を繰り返し再生する。図7の場合、第1期間Δt11は、第1音コンテンツC12の再生時間Δt21の2倍以上の長さである。このため、再生部130では、音再生部132は、第1音コンテンツC12の再生を3回行い、3回目の再生の途中の第1期間Δt11が終了するタイミングt4で第2音コンテンツC22の再生に切り替える。再生部130では、映像再生部131は、タイミングt4で第1映像コンテンツC11の再生が終了するため、次の第2映像コンテンツC21の再生に切り替える。また、音再生部132は、タイミングt4において、第1音コンテンツC12をフェードアウトさせ、第2音コンテンツC22をフェードインさせる。このため、音再生部132は、タイミングt4よりもフェードアウト期間だけ前のタイミングt3で第1音量で再生している第1音コンテンツC12の再生音量を低下させ始め、タイミングt4までの間に第2の音量まで低下させる。また、音再生部132は、タイミングt4から第3の音量で第2音コンテンツC22の再生を始め、フェードイン期間後のタイミングt5までの間に第4の音量まで再生音量を増加させる。なお、第1~第4音量は、所定期間の平均音量としてもよい。また、第1音量および第4音量は互いに同じ音量であってもよい。また、第2音量および第3音量は互いに同じ音量であってもよい。 As shown in FIG. 7, the reproduction unit 130 reproduces the first sound content C12 during the first period Δt11 during reproduction of the first video content C11. The reproducing unit 130 repeatedly reproduces the first sound content C12 during the first period Δt11. In the case of FIG. 7, the first period Δt11 is at least twice as long as the reproduction time Δt21 of the first sound content C12. Therefore, in the reproduction unit 130, the sound reproduction unit 132 reproduces the first sound content C12 three times, and reproduces the second sound content C22 at a timing t4 when the first period Δt11 in the middle of the third reproduction ends. Switch to. In the playback unit 130, the video playback unit 131 switches to playback of the next second video content C21 because the playback of the first video content C11 ends at timing t4. In addition, the sound reproduction unit 132 fades out the first sound content C12 and fades in the second sound content C22 at timing t4. For this reason, the sound reproduction unit 132 starts to decrease the reproduction volume of the first sound content C12 that is reproduced at the first volume at the timing t3 that is a fade-out period before the timing t4, and the second volume until the timing t4. Reduce the volume to. In addition, the sound reproduction unit 132 starts reproduction of the second sound content C22 at the third volume from the timing t4, and increases the reproduction volume to the fourth volume before the timing t5 after the fade-in period. The first to fourth sound volumes may be average sound volumes for a predetermined period. The first volume and the fourth volume may be the same volume. Further, the second volume and the third volume may be the same volume.
 なお、再生部130は、第1映像コンテンツC11の再生時間が終わるまでの規定の期間において、例えばコンテンツの作者を示すクレジット情報を表示する場合、クレジット情報を表示する期間をフェードアウト期間としてもよい。つまり、再生部130は、クレジット情報を表示する期間において第1音コンテンツC12の音量を第1音量から第2音量まで低下させてもよい。なお、クレジット情報は、コンテンツ関連情報に含まれていてもよい。クレジット情報は、映像コンテンツのコンテンツ関連情報に含まれていてもよいし、含まれていなくてもよい。クレジット情報は、音コンテンツのコンテンツ関連情報に含まれていてもよいし、含まれていなくてもよい。 Note that the playback unit 130 may display a period of displaying credit information as a fade-out period in a predetermined period until the playback time of the first video content C11 ends, for example, when displaying credit information indicating the creator of the content. That is, the playback unit 130 may reduce the volume of the first sound content C12 from the first volume to the second volume during the period in which the credit information is displayed. The credit information may be included in the content related information. The credit information may or may not be included in the content related information of the video content. The credit information may or may not be included in the content related information of the sound content.
 再生部130は、例えば、CPU101、メインメモリ102、ストレージ103、ディスプレイ105、およびスピーカ106により実現される。 The reproduction unit 130 is realized by, for example, the CPU 101, the main memory 102, the storage 103, the display 105, and the speaker 106.
 図5に戻り、サーバ200の機能構成について説明する。 Referring back to FIG. 5, the functional configuration of the server 200 will be described.
 サーバ200は、データベース210と、比較部220と、生成部230と、通信部240とを備える。 The server 200 includes a database 210, a comparison unit 220, a generation unit 230, and a communication unit 240.
 データベース210は、映像コンテンツDB(Database)211と、音コンテンツDB(Database)212とを有する。映像コンテンツDB211は、それぞれが独立した複数の映像コンテンツを記憶している。映像コンテンツDB211は、複数の映像コンテンツと共に、複数の映像コンテンツのそれぞれに対応しているコンテンツ関連情報を記憶している。音コンテンツDB212は、それぞれが独立した複数の音コンテンツを記憶している。音コンテンツDB212は、複数の音コンテンツと共に、複数の音コンテンツのそれぞれに対応しているコンテンツ関連情報を記憶している。映像コンテンツDB211は、通信部240により通信ネットワーク300を介して情報処理装置400から取得された映像コンテンツを記憶している。同様に、音コンテンツDB212は、通信部240により通信ネットワーク300を介して情報処理装置400から取得された音コンテンツを記憶している。映像コンテンツDB211および音コンテンツDB212のそれぞれは、例えば、ストレージ203により実現される。 The database 210 includes a video content DB (Database) 211 and a sound content DB (Database) 212. The video content DB 211 stores a plurality of independent video contents. The video content DB 211 stores content related information corresponding to each of the plurality of video contents together with the plurality of video contents. The sound content DB 212 stores a plurality of independent sound contents. The sound content DB 212 stores content related information corresponding to each of the plurality of sound contents together with the plurality of sound contents. The video content DB 211 stores video content acquired from the information processing apparatus 400 via the communication network 300 by the communication unit 240. Similarly, the sound content DB 212 stores sound content acquired from the information processing apparatus 400 via the communication network 300 by the communication unit 240. Each of the video content DB 211 and the sound content DB 212 is realized by the storage 203, for example.
 なお、コンテンツ関連情報は、例えば、コンテンツのメタデータ(つまり属性情報)である。メタデータは、1つのコンテンツに対して1セット存在するものであり、再生時間、作者、アンビエント度、映像アンビエント度、又は、音アンビエント度、コンテンツのジャンルの各情報を含む。アンビエント度、映像アンビエント度、および、音アンビエント度の詳細は後述する。 The content related information is, for example, content metadata (that is, attribute information). One set of metadata exists for one content, and includes information on reproduction time, author, ambient level, video ambient level, or sound ambient level, and content genre. Details of the ambient degree, the video ambient degree, and the sound ambient degree will be described later.
 再生時間は、当該コンテンツが再生される際の時間長を示す情報である。 The playback time is information indicating the length of time when the content is played back.
 作者は、当該コンテンツの作者を示す情報であり、作者の氏名、連絡先を示す情報などを含む情報である。 The author is information indicating the author of the content, and includes information including the author's name and contact information.
 アンビエント度は、当該コンテンツに紐付けられるアンビエント度である。 The ambient degree is an ambient degree associated with the content.
 映像アンビエント度は、当該コンテンツに含まれる映像部分に紐付けられるアンビエント度である。 The video ambient degree is the ambient degree associated with the video part included in the content.
 音アンビエント度は、当該コンテンツに含まれる音部分に紐付けられるアンビエント度である。 The sound ambient degree is an ambient degree associated with a sound part included in the content.
 このように、コンテンツのアンビエント度等は、メタデータによって設定され得る。 Thus, the ambient degree of content and the like can be set by metadata.
 メタデータは、予め定められたフォーマットで作成されている。指標は、メタデータのフォーマットに従ってメタデータを解析することにより得られる。指標は、コンテンツに紐付けられる指標であって、連続値により表現される指標である。指標の一例は、再生されているコンテンツに対してユーザが向ける注意の度合いを示す推定指標である。より具体的には、上記指標は、再生されているコンテンツに対してユーザが向ける注意の度合いが大きいほど、より小さな値を有する指標である指標、又は、再生されているコンテンツに対してユーザが向ける注意の度合いが大きいほど、より大きな値を有する指標を採用し得る。ここで、前者をアンビエント度(Ambient level)ともいい、後者をコンシャス度(Consious level)ともいう。ユーザが向ける注意の度合いが大きいほど、例えば、そのコンテンツの再生時間の最初から最後まで映像が表示されている画面を注視し続け、かつ、出力されている音を集中して視聴することがより適していると言える。 Metadata is created in a predetermined format. The index is obtained by analyzing the metadata according to the metadata format. The index is an index associated with the content, and is an index expressed by a continuous value. An example of the index is an estimated index that indicates the degree of attention the user is directed to the content being played back. More specifically, the index is an index that is an index having a smaller value as the degree of attention directed to the content being played by the user is greater, or the user is directed to the content being played. As the degree of attention directed is greater, an index having a larger value may be employed. Here, the former is also referred to as an ambient level and the latter is also referred to as a conscious level. As the degree of attention directed by the user increases, for example, it is more likely to continue watching the screen on which the video is displayed from the beginning to the end of the playback time of the content, and concentrate on viewing the output sound. It can be said that it is suitable.
 なお、指標として、再生されているコンテンツに含まれる映像の色彩に関する指標である明度、彩度若しくは色相などを含んでもよいし、再生されているコンテンツに含まれる音の指標である音量若しくは周波数分布などを含んでもよい。さらに、指標として、これらの複数の指標から所定の算出方法によって算出される指標を含んでいてもよい。 The index may include brightness, saturation, hue, or the like that is an index related to the color of the video included in the content being played back, or volume or frequency distribution that is an index of the sound included in the content being played back Etc. may be included. Further, the index may include an index calculated by a predetermined calculation method from the plurality of indexes.
 以降では、指標としてアンビエント度を用いて説明するが、コンシャス度、及び、その他の指標を用いても同様の説明が成立する。また、アンビエント度は、例えば0から100までの連続値に表現される指標であるとする。アンビエント度が0である場合、ユーザが向けると推定される注意の度合いが最も大きいことを意味し、アンビエント度が100である場合、ユーザが向けると推定される注意の度合いが最も小さいことを意味するとする。 Hereinafter, the explanation will be made using the ambient degree as an index, but the same explanation can be established by using the consciousness degree and other indices. The ambient degree is an index expressed as a continuous value from 0 to 100, for example. When the degree of ambient is 0, it means that the degree of attention estimated to be directed by the user is the largest, and when the degree of ambient is 100, the degree of attention estimated to be directed by the user is the smallest. Then.
 コンテンツに紐付けられるアンビエント度は、コンテンツの映像部分に紐付けられるアンビエント度である映像アンビエント度と、コンテンツの音部分に紐付けられるアンビエント度である音アンビエント度と、から算出され得る。なお、映像アンビエント度は、映像指標の一例である。音アンビエント度は、音指標の一例である。 The ambient degree associated with the content can be calculated from the video ambient degree that is the ambient degree associated with the video part of the content and the sound ambient degree that is the ambient degree associated with the sound part of the content. The video ambient degree is an example of a video index. The sound ambient degree is an example of a sound index.
 映像アンビエント度は、例えば、コンテンツの映像の明度、彩度若しくは色相、又は、シーンチェンジの態様に基づいて算出されてもよい。より具体的には、以下のように算出される。 The video ambient degree may be calculated based on, for example, the brightness, saturation or hue of the video of the content, or the scene change mode. More specifically, it is calculated as follows.
 ・コンテンツの映像の明度が高いほど、より低いアンビエント度が算出される。 ・ The higher the brightness of the content video, the lower the ambient degree is calculated.
 ・コンテンツの映像の彩度が高いほど、より低いアンビエント度が算出される。 ・ The higher the saturation of the content video, the lower the ambient degree is calculated.
 ・コンテンツの映像の色彩に基づいて、赤、橙又は黄のような暖色の色が多いほど、より高いアンビエントが算出され、青又は紫のような寒色の色が多いほど、より低いアンビエント度が算出される。 Based on the color of the content video, the higher the warm color such as red, orange or yellow, the higher the ambient, the higher the cold color such as blue or purple, the lower the ambient Calculated.
 ・映像のシーンチェンジが多いほど、より低いアンビエント度が算出される。 ・ The lower the degree of ambientity, the more scene changes in the video.
 ・シーンチェンジの際の映像の切り替えの態様として、一のシーンからその次のシーンへの切り替えの際に、フェードアウト、フェードイン又はクロスフェードのように画像が徐々に切り変わることが多いほど、より高いアンビエント度が算出される。一のシーンからその次のシーンへの切り替えの際に、画像が急に切り替えられることが多いほど、より低いアンビエント度が算出される。 -As a mode of video switching at the time of a scene change, when switching from one scene to the next scene, the more the image gradually changes like fade out, fade in or cross fade, the more A high degree of ambient is calculated. When switching from one scene to the next, the more frequently the images are switched, the lower the degree of ambient is calculated.
 また、音アンビエント度は、例えば、コンテンツの音の音量、音の周波数分布、又は、音量の変化の態様に基づいて音アンビエント度が算出されてもよい。より具体的には、以下のように算出される。 In addition, the sound ambient degree may be calculated based on, for example, the volume of the sound of the content, the frequency distribution of the sound, or the change in volume. More specifically, it is calculated as follows.
 ・コンテンツの音の音量が大きいほど、より低いアンビエント度が算出される。 ・ The lower the degree of ambient, the higher the volume of the content sound.
 ・コンテンツの音の周波数分布について、高音域(例えば1kHz~20kHz程度)又は低音域(例えば20Hz~200Hz程度)の音が多いほど、より高いアンビエント度が算出され、中音域(例えば200Hz~1kHz程度)が多いほど、より低いアンビエント度が算出される。 -Regarding the frequency distribution of the sound of the content, the higher the sound in the high sound range (for example, about 1 kHz to 20 kHz) or the low sound range (for example, about 20 Hz to 200 Hz), the higher the ambient degree is calculated, and the medium sound range (for example, about 200 Hz to 1 kHz) ), The lower the degree of ambient is calculated.
 ・音量の変化が急峻であるほど、より低いアンビエント度が算出される。 ・ The steeper change in volume results in a lower ambient level.
 なお、映像アンビエント度と音アンビエント度とからコンテンツのアンビエント度を算出する方法は、任意の方法を採用し得るが、例えば、平均又は加重平均を用いることができる。例えば、加重平均の重みを0から1までの範囲とし、映像アンビエント度の重みをαとすると、コンテンツのアンビエント度は、下記(式1)のように表わされる。 Note that, as a method of calculating the content ambient degree from the video ambient degree and the sound ambient degree, any method can be adopted, but for example, an average or a weighted average can be used. For example, when the weighted average weight is in the range from 0 to 1 and the video ambient degree weight is α, the ambient degree of the content is expressed as (Equation 1) below.
 コンテンツのアンビエント度
  =α×(映像アンビエント度)+(1-α)×(音アンビエント度)   (式1)
Ambient degree of content = α x (Video ambient degree) + (1-α) x (Sound ambient degree) (Formula 1)
 ここで、映像アンビエント度と音アンビエントとの重み付けは、例えば、以下のように定められる。 Here, the weighting of the video ambient degree and the sound ambient is determined as follows, for example.
 (1)音アンビエント度の重みを大きくする場合
 一般に人が、再生装置100等が提示する映像に対して意図的に注意を向けないようにするには、目を瞑る、又は、目若しくは身体の向きを変えること等をすればよく、比較的容易である。一方、人が、再生装置100等が提示する音に対して意図的に注意を向けないようにするには、耳を塞ぐなどの方法があり得るが、あまり容易ではなく、また仮に耳を塞いだとしても完全にユーザが感ずる音をなくすことは難しい。従って、ユーザは、コンテンツの映像部分に関しては、映像アンビエント度に無関係に、意図的に注意を背けることができるが、コンテンツの音部分に関しては、注意の度合いが音アンビエント度に近いものにならざるを得ない。
(1) Increasing the weight of the sound ambient level Generally, in order to prevent a person from intentionally paying attention to the video presented by the playback device 100 or the like, the eyes are meditated or the eyes or body It is only relatively easy to change the direction. On the other hand, in order to prevent a person from paying attention to the sound presented by the playback device 100 or the like, there is a method of closing the ear, but it is not so easy, and the ear is temporarily blocked. Even so, it is difficult to completely eliminate the sound felt by the user. Therefore, the user can intentionally turn away the attention regarding the video portion of the content regardless of the degree of video ambient, but the degree of attention does not have to be close to the degree of sound ambient regarding the sound portion of the content. I do not get.
 そこで、音アンビエント度の重みを映像アンビエント度の重みより重くする、つまり、αを0.5より小さい値にすることが有効である。このようにすると、コンテンツに紐付けられるアンビエント度において、音に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツに紐付けられるアンビエント度の振る舞いを、ユーザが向ける注意の度合いについての感覚に近づけることができる。 Therefore, it is effective to make the weight of the sound ambient degree heavier than the weight of the video ambient degree, that is, to make α smaller than 0.5. In this way, in the degree of ambient that is linked to the content, by making the contribution of the degree of attention directed by the person relative to the sound relatively large, the attention that the user directs the behavior of the ambient degree that is linked to the content. It is possible to get close to the sense of the degree.
 (2)映像アンビエント度の重みを大きくする場合
 人間が、再生装置100が提示する映像に対して注意を向けないようにするのは比較的容易であると述べたが、ディスプレイ105の寸法が大きいと、再生装置100が提示する映像から注意を背けることが難しくなる。
(2) When increasing the weight of the video ambient degree It has been stated that it is relatively easy for humans not to pay attention to the video presented by the playback device 100, but the size of the display 105 is large. This makes it difficult to distract from the video presented by the playback device 100.
 そこで、コンテンツが表示されると想定されるディスプレイ105の寸法が大きいほど、映像アンビエント度の重みを大きくすることが有効である。例えば、コンテンツが表示されると想定されるディスプレイ105の寸法に閾値を設け、その閾値を超える寸法のディスプレイ105によってコンテンツが表示されると想定される場合には、映像アンビエント度の重みを、音アンビエント度の重みより重くする、つまり、αが0.5より大きくすることが有効である。この閾値は、例えば、ディスプレイ105の対角線の長さで50インチ、又は、70インチ程度とすることができる。 Therefore, it is effective to increase the weight of the video ambient degree as the size of the display 105 on which the content is assumed to be displayed is larger. For example, when a threshold value is set for the dimension of the display 105 that is assumed to display the content, and the content is assumed to be displayed by the display 105 having a dimension that exceeds the threshold, the weight of the video ambient degree is set to sound. It is effective to make it heavier than the weight of the ambient degree, that is, to make α larger than 0.5. This threshold value can be about 50 inches or 70 inches in the length of the diagonal line of the display 105, for example.
 このようにすると、コンテンツに紐付けられる指標において、映像に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツに紐付けられるアンビエント度の振る舞いを、ユーザが向ける注意の度合いについての感覚に近づけることができる。 In this way, in the index associated with the content, the contribution of the degree of attention directed by the person to the video is relatively increased, so that the behavior of the ambient degree associated with the content is noticed by the user. You can get close to a sense of degree.
 なお、αは、再生システム1の運用者、コンテンツの提供者、又は、ユーザによる入力により変動できるようにしてもよい。このようにすることで、再生システム1の運用者等が柔軟に映像アンビエント度と音アンビエント度との重みを変化させることができる。その結果、ユーザの感覚に適合した、より柔軟なコンテンツの指定が可能となる利点がある。 Note that α may be changed by an input from the operator of the playback system 1, the provider of the content, or the user. In this way, the operator of the playback system 1 can flexibly change the weight of the video ambient level and the sound ambient level. As a result, there is an advantage that it is possible to specify more flexible content suitable for the user's sense.
 映像アンビエント度および音アンビエント度は、アンビエント度の大きさに応じて複数段階のランクに分類されていてもよい。この場合、映像アンビエント度の複数のランクを規定するアンビエント度の複数の範囲と、音アンビエント度の複数のランクを規定するアンビエント度の複数の範囲とは、互いに一致していなくてもよい。例えば、映像アンビエント度が0~20の範囲でランクAと分類され、音アンビエント度が0~30の範囲でランクAと分類されてもよい。つまり、映像アンビエント度と、音アンビエント度とは、同じランクであっても、異なるアンビエント度の範囲で複数のランクに分類されていてもよい。 The video ambient level and the sound ambient level may be classified into a plurality of ranks according to the magnitude of the ambient level. In this case, the plurality of ranges of ambient degrees that define the plurality of ranks of the video ambient degree and the plurality of ranges of ambient degrees that define the plurality of ranks of the sound ambient degree do not have to coincide with each other. For example, the video ambient degree may be classified as rank A in the range of 0 to 20, and the sound ambient degree may be classified as rank A in the range of 0 to 30. That is, the video ambient degree and the sound ambient degree may be classified into a plurality of ranks within the same rank or different ambient degree ranges.
 また、映像アンビエント度と音アンビエント度とは、最小値と最大値とが一致するように正規化されていてもよい。 Also, the video ambient degree and the sound ambient degree may be normalized so that the minimum value and the maximum value coincide.
 なお、コンテンツにはさまざまなコンテンツが有り得るが、ユーザによってあまり注視されることがない、壁に飾られた絵画、又は、壁紙、床若しくは天井の一部のように、環境の一部を形成するコンテンツであってもよい。なお、コンテンツは、ニュース又は教養等に関する情報を取得したり、娯楽を得たりするために注視したりすることが想定されるコンテンツであってもよい。 There can be a variety of content, but it is part of the environment, such as paintings on the wall or parts of wallpaper, floor or ceiling that are not often watched by users It may be content. Note that the content may be content that is assumed to be acquired in order to acquire information on news or culture or to obtain entertainment.
 なお、サーバ200は、データベース210記憶したコンテンツおよびコンテンツ関連情報の少なくとも一方を用いて、上記の方法を用いて、アンビエント度を算出してもよい。このようにアンビエント度が算出される場合、コンテンツ関連情報には、アンビエント度が含まれていなくてもよい。 Note that the server 200 may calculate the ambient degree using the above method using at least one of the content stored in the database 210 and the content related information. When the degree of ambient is calculated in this way, the content-related information may not include the degree of ambient.
 比較部220は、複数の映像コンテンツのそれぞれに含まれる映像属性情報と、複数の音コンテンツのそれぞれに含まれる音属性情報とを比較する。比較部220は、例えば、映像コンテンツのジャンルと、音コンテンツのジャンルとが一致する場合、互いに類似すると判定する。なお、ジャンルには、コンテンツの作者、コンテンツが作成された日(または、月、年)が含まれていてもよい。比較部220は、例えば、映像アンビエント度と、音アンビエント度とが、所定の方法を用いて比較し、類似しているか否かを判定する。比較部220は、アンビエント度の大きさに応じて分類された複数のランクにおいて、映像コンテンツの映像アンビエント度が属するランクと、音コンテンツの音アンビエント度が属するランクとが同じである場合に、当該映像コンテンツおよび当該音コンテンツが互いに類似すると判定する。なお、比較部220は、映像属性情報に含まれるメタデータから映像アンビエント度を上記の方法を利用して算出し、音属性情報に含まれるメタデータから音アンビエント度を上記の方法を利用して算出してもよい。比較部220は、例えば、CPU201、メインメモリ202、およびストレージ203により実現される。 The comparison unit 220 compares the video attribute information included in each of the plurality of video contents with the sound attribute information included in each of the plurality of sound contents. For example, when the genre of the video content matches the genre of the sound content, the comparison unit 220 determines that they are similar to each other. The genre may include the author of the content and the date (or month, year) when the content was created. For example, the comparison unit 220 compares the video ambient degree and the sound ambient degree using a predetermined method, and determines whether or not they are similar. When the rank to which the video ambient degree of the video content belongs and the rank to which the sound ambient degree of the sound content belong are the same among the plurality of ranks classified according to the magnitude of the ambient degree, the comparison unit 220 It is determined that the video content and the sound content are similar to each other. The comparison unit 220 calculates the video ambient degree from the metadata included in the video attribute information using the above method, and calculates the sound ambient degree from the metadata included in the sound attribute information using the above method. It may be calculated. The comparison unit 220 is realized by, for example, the CPU 201, the main memory 202, and the storage 203.
 生成部230は、比較部220による比較の結果に応じて、互いに類似する属性情報を有する映像コンテンツおよび音コンテンツで構成されるコンテンツを複数生成する。つまり、生成部230は、互いに類似する映像コンテンツおよび音コンテンツの組合せで構成されるコンテンツを複数生成する。生成部230は、例えば、CPU201、メインメモリ202、およびストレージ203により実現される。 The generation unit 230 generates a plurality of contents composed of video content and sound content having attribute information similar to each other according to the comparison result by the comparison unit 220. That is, the generation unit 230 generates a plurality of contents composed of combinations of video content and sound content similar to each other. The generation unit 230 is realized by the CPU 201, the main memory 202, and the storage 203, for example.
 通信部240は、生成部230により生成された複数のコンテンツのうちの2以上のコンテンツを、通信ネットワーク300を介して再生装置100に送信する。通信部240は、再生装置100からコンテンツの取得要求を受信した場合に、当該取得要求に応じたコンテンツを再生装置100に送信してもよい。通信部240は、例えば、通信IF204により実現される。 The communication unit 240 transmits two or more contents among the plurality of contents generated by the generation unit 230 to the playback device 100 via the communication network 300. When the communication unit 240 receives a content acquisition request from the playback device 100, the communication unit 240 may transmit the content corresponding to the acquisition request to the playback device 100. The communication unit 240 is realized by the communication IF 204, for example.
 次に、情報処理装置400の機能構成について説明する。 Next, the functional configuration of the information processing apparatus 400 will be described.
 情報処理装置400は、コンテンツDB410と、登録部420と、入力受付部430と、通信部440とを備える。 The information processing apparatus 400 includes a content DB 410, a registration unit 420, an input reception unit 430, and a communication unit 440.
 コンテンツDB410は、映像コンテンツまたは音コンテンツを記憶している。映像コンテンツまたは音コンテンツは、例えば、コンテンツの作者などの第2のユーザによって制作されたコンテンツである。なお、映像コンテンツの作者と音コンテンツの作者とが異なる場合、第2のユーザは、複数人存在することとなる。コンテンツDB410は、例えば、ストレージ403により実現される。 The content DB 410 stores video content or sound content. The video content or the sound content is, for example, content created by a second user such as a content creator. When the creator of the video content and the creator of the sound content are different, there are a plurality of second users. The content DB 410 is realized by the storage 403, for example.
 登録部420は、第2のユーザが入力受付部430に入力された情報に応じて、映像コンテンツまたは音コンテンツを、通信部440を介してサーバ200に登録する。登録部420は、例えば、第2のユーザを識別するID、コンテンツの属性情報、コンテンツの再生時間などのコンテンツ関連情報をコンテンツと関連付けて登録する。登録部420は、コンテンツ関連情報およびコンテンツを通信部440に、通信ネットワーク300を介してサーバ200へ送信させる。登録部420は、例えば、CPU401、メインメモリ402、およびストレージ403により実現される。 The registration unit 420 registers video content or sound content in the server 200 via the communication unit 440 according to information input by the second user to the input reception unit 430. For example, the registration unit 420 registers content-related information such as an ID for identifying the second user, content attribute information, and content playback time in association with the content. The registration unit 420 causes the communication unit 440 to transmit content related information and content to the server 200 via the communication network 300. The registration unit 420 is realized by, for example, the CPU 401, the main memory 402, and the storage 403.
 入力受付部430は、第2のユーザによる入力を受け付ける。入力受付部430は、具体的には、第2のユーザがコンテンツをサーバ200に登録するための入力を受け付ける。入力受付部430は、例えば、入力IF405により実現される。 The input reception unit 430 receives an input by the second user. Specifically, the input receiving unit 430 receives an input for the second user to register content in the server 200. The input receiving unit 430 is realized by the input IF 405, for example.
 [1-2.動作]
 次に、再生システム1の動作について説明する。
[1-2. Operation]
Next, the operation of the reproduction system 1 will be described.
 図8は、実施の形態に係る再生システムによる再生方法の一例を示すシーケンス図である。 FIG. 8 is a sequence diagram showing an example of a reproduction method by the reproduction system according to the embodiment.
 サーバ200は、第1コンテンツC10を、通信ネットワーク300を介して再生装置100に送信する(S11)。 The server 200 transmits the first content C10 to the playback device 100 via the communication network 300 (S11).
 再生装置100は、サーバ200により送信された第1コンテンツC10を、通信ネットワーク300を介して受信する(S21)。 The playback device 100 receives the first content C10 transmitted by the server 200 via the communication network 300 (S21).
 サーバ200は、第2コンテンツC20を、通信ネットワーク300を介して再生装置100に送信する(S12)。 The server 200 transmits the second content C20 to the playback device 100 via the communication network 300 (S12).
 再生装置100は、サーバ200により送信された第2コンテンツC20を、通信ネットワーク300を介して受信する(S22)。 The playback device 100 receives the second content C20 transmitted by the server 200 via the communication network 300 (S22).
 なお、サーバ200は、第1コンテンツC10および第2コンテンツC20をバラバラに送信するとしたが、第1コンテンツC10および第2コンテンツC20を一緒に再生装置100に送信してもよい。よって、再生装置100は、第1コンテンツC10および第2コンテンツC20を一緒に受信してもよい。 Note that, although the server 200 transmits the first content C10 and the second content C20 apart, the server 200 may transmit the first content C10 and the second content C20 to the playback device 100 together. Therefore, the playback device 100 may receive the first content C10 and the second content C20 together.
 再生装置100は、受信した第1コンテンツC10および第2コンテンツC20の再生を行う(S23)。再生装置100による再生処理の詳細は後述する。 The playback device 100 plays back the received first content C10 and second content C20 (S23). Details of the reproduction processing by the reproduction apparatus 100 will be described later.
 図9は、実施の形態に係る再生装置による再生処理の詳細の一例を示すフローチャートである。 FIG. 9 is a flowchart showing an example of details of the reproduction processing by the reproduction apparatus according to the embodiment.
 再生装置100では、再生処理を開始すると、再生部130は、第1コンテンツC10を再生する(S31)。 In the playback device 100, when the playback process is started, the playback unit 130 plays back the first content C10 (S31).
 再生部130の映像再生部131は、第1コンテンツC10に含まれる第1映像コンテンツC11の再生が終了するタイミングを取得する(S32)。映像再生部131は、例えば、第1映像コンテンツC11に含まれるコンテンツ関連情報から第1映像コンテンツC11の再生時間を取得する。そして、映像再生部131は、第1コンテンツC10の再生を開始したタイミングから、第1映像コンテンツC11の再生時間後のタイミングを第1映像コンテンツC11の再生が終了するタイミングとする。 The video playback unit 131 of the playback unit 130 acquires the timing when the playback of the first video content C11 included in the first content C10 ends (S32). For example, the video reproduction unit 131 acquires the reproduction time of the first video content C11 from the content related information included in the first video content C11. Then, the video reproduction unit 131 sets the timing after the reproduction time of the first video content C11 from the timing when the reproduction of the first content C10 is started as the timing when the reproduction of the first video content C11 ends.
 再生部130の音再生部132は、第1コンテンツC10に含まれる第1音コンテンツC12の再生が終了するタイミングを取得する(S33)。音再生部132は、例えば、第1音コンテンツC12に含まれるコンテンツ関連情報から第1音コンテンツC12の再生時間を取得する。そして、音再生部132は、第1コンテンツC10の再生を開始したタイミングから、第1音コンテンツC12の再生時間後のタイミングを第1音コンテンツC12の再生が終了するタイミングとする。 The sound reproducing unit 132 of the reproducing unit 130 acquires the timing when the reproduction of the first sound content C12 included in the first content C10 ends (S33). For example, the sound reproducing unit 132 acquires the reproduction time of the first sound content C12 from the content related information included in the first sound content C12. Then, the sound reproduction unit 132 sets the timing after the reproduction time of the first sound content C12 from the timing when the reproduction of the first content C10 is started as the timing when the reproduction of the first sound content C12 ends.
 次に、再生部130は、第1映像コンテンツC11の再生が第1音コンテンツC12の再生よりも先に終了するか否かを判定する(S34)。つまり、再生部130は、第1映像コンテンツC11の再生が終了するタイミングが、第1音コンテンツC12の再生が終了するタイミングよりも早いタイミングであるか否かを判定する。 Next, the playback unit 130 determines whether or not the playback of the first video content C11 ends before the playback of the first sound content C12 (S34). That is, the playback unit 130 determines whether or not the timing at which the playback of the first video content C11 ends is earlier than the timing at which the playback of the first sound content C12 ends.
 再生部130は、第1映像コンテンツC11の再生が第1音コンテンツC12の再生よりも先に終了すると判定した場合(S34でYes)、第1映像コンテンツC11の再生が終了したか否かを判定する(S35)。 When it is determined that the reproduction of the first video content C11 ends before the reproduction of the first sound content C12 (Yes in S34), the reproduction unit 130 determines whether the reproduction of the first video content C11 is completed. (S35).
 再生部130は、第1映像コンテンツC11の再生が終了したと判定した場合(S35でYes)、第1音コンテンツC12の再生を停止し、第2コンテンツの再生を開始する(S36)。つまり、再生部130は、第1映像コンテンツC11の再生が終了するタイミングで、第1映像コンテンツC11の再生から第2映像コンテンツC21の再生に切り替え、かつ、第1音コンテンツC12の再生から第2音コンテンツC22の再生に切り替える。再生部130は、ステップS36を終了すると、再生処理を終了してもよいし、第2コンテンツC20の次の第3コンテンツに対して同様の再生処理を行ってもよい。 When the playback unit 130 determines that the playback of the first video content C11 has ended (Yes in S35), the playback unit 130 stops the playback of the first sound content C12 and starts the playback of the second content (S36). That is, the playback unit 130 switches from playback of the first video content C11 to playback of the second video content C21 at a timing when playback of the first video content C11 ends, and from playback of the first sound content C12 to second. Switch to the playback of the sound content C22. Upon completion of step S36, the playback unit 130 may end the playback process, or may perform the same playback process on the third content next to the second content C20.
 一方で、再生部130は、第1映像コンテンツC11の再生が終了していないと判定した場合(S35でNo)、ステップS35を繰り返す。よって、再生部130は、第1映像コンテンツC11の再生が終了するまで待機する。 On the other hand, when the reproducing unit 130 determines that the reproduction of the first video content C11 has not ended (No in S35), the reproducing unit 130 repeats Step S35. Therefore, the reproducing unit 130 waits until the reproduction of the first video content C11 is completed.
 ステップS34において、再生部130は、第1映像コンテンツC11の再生が第1音コンテンツC12の再生が終了するタイミング以降に終了すると判定した場合(S34でNo)、第1音コンテンツC12の再生が終了したか否かを判定する(S37)。 In step S34, when the playback unit 130 determines that the playback of the first video content C11 ends after the timing when the playback of the first sound content C12 ends (No in S34), the playback of the first sound content C12 ends. It is determined whether or not (S37).
 再生部130は、第1音コンテンツC12の再生が終了したと判定した場合(S37でYes)、第1音コンテンツC12の再生を繰り返し(S38)、ステップS34に戻る。この場合、次に行われるステップS34では、第1映像コンテンツC11の再生が繰り返し再生する第1音コンテンツC12の再生よりも先に終了するか否かを判定する。 When the reproduction unit 130 determines that the reproduction of the first sound content C12 has ended (Yes in S37), the reproduction unit 130 repeats the reproduction of the first sound content C12 (S38), and returns to step S34. In this case, in the next step S34, it is determined whether or not the reproduction of the first video content C11 ends before the reproduction of the first sound content C12 that is repeatedly reproduced.
 一方で、再生部130は、第1音コンテンツC12の再生が終了していないと判定した場合(S37でNo)、ステップS37を繰り返す。よって、再生部130は、第1音コンテンツC12の再生が終了するまで待機する。 On the other hand, when the reproducing unit 130 determines that the reproduction of the first sound content C12 has not ended (No in S37), the reproducing unit 130 repeats Step S37. Therefore, the reproducing unit 130 stands by until the reproduction of the first sound content C12 is completed.
 図10は、実施の形態に係る再生システムによる登録方法の一例を示すシーケンス図である。 FIG. 10 is a sequence diagram showing an example of a registration method by the reproduction system according to the embodiment.
 情報処理装置400の登録部420は、入力受付部430により受け付けられた入力に応じて、コンテンツDB410に記憶されている複数の映像コンテンツまたは複数の音コンテンツの中から1つのコンテンツを選択する(S41)。 The registration unit 420 of the information processing device 400 selects one content from a plurality of video contents or a plurality of sound contents stored in the content DB 410 according to the input received by the input receiving unit 430 (S41). ).
 入力受付部430は、選択されたコンテンツのコンテンツ関連情報の入力を受け付ける(S42)。これにより、登録部420は、選択されたコンテンツと、受け付けられたコンテンツ関連情報とを関連付ける。 The input receiving unit 430 receives input of content related information of the selected content (S42). As a result, the registration unit 420 associates the selected content with the received content-related information.
 通信部440は、選択されたコンテンツと共に、関連付けられたコンテンツ関連情報を、通信ネットワーク300を介してサーバ200に送信する(S43)。 The communication unit 440 transmits the associated content related information together with the selected content to the server 200 via the communication network 300 (S43).
 サーバ200では、通信部240が情報処理装置400により送信されたコンテンツと共に、コンテンツ関連情報を受信する(S51)。 In the server 200, the communication unit 240 receives the content related information together with the content transmitted by the information processing apparatus 400 (S51).
 サーバ200のデータベース210は、通信部240が受信したコンテンツと共に、コンテンツ関連情報を記憶する(S52)。 The database 210 of the server 200 stores content related information together with the content received by the communication unit 240 (S52).
 [1-3.効果など]
 本実施の形態に係る再生方法によれば、互いに独立している第1映像コンテンツC11および第1音コンテンツC12で構成される第1コンテンツC10を再生した後で、互いに独立している第2映像コンテンツC21および第2音コンテンツC22で構成される第2コンテンツC20を再生する。このため、第1映像コンテンツC11を第2映像コンテンツC21に切り替えるタイミングで、第1音コンテンツC12を第2音コンテンツC22に切り替えることができる。よって、映像コンテンツおよび音コンテンツを別のコンテンツに切り替えたときにユーザに与える違和感を低減することができる。
[1-3. Effect etc.]
According to the playback method according to the present embodiment, after playing back the first content C10 composed of the first video content C11 and the first sound content C12 that are independent from each other, the second video that is independent from each other. The second content C20 composed of the content C21 and the second sound content C22 is reproduced. Therefore, the first sound content C12 can be switched to the second sound content C22 at the timing of switching the first video content C11 to the second video content C21. Therefore, it is possible to reduce a sense of discomfort given to the user when the video content and the sound content are switched to different content.
 また、再生方法において、第1コンテンツC10および第2コンテンツC20のそれぞれは、属性情報が類似している映像コンテンツおよび音コンテンツの組み合わせで構成されている。このため、ユーザに与える印象を、映像コンテンツおよび音コンテンツで統一した印象とすることができる。このため、互いに独立した映像コンテンツおよび音コンテンツを組み合わせて再生する場合であっても、ユーザに与える違和感を効果的に低減することができる。 In the playback method, each of the first content C10 and the second content C20 is composed of a combination of video content and sound content having similar attribute information. For this reason, the impression given to the user can be a unified impression for the video content and the sound content. For this reason, even when the video content and the sound content independent from each other are combined and reproduced, the uncomfortable feeling given to the user can be effectively reduced.
 また、再生方法において、第1映像コンテンツC11の再生が終了したタイミングで、第1映像コンテンツC11から第2映像コンテンツC21に切り替えて再生し、かつ、第1音コンテンツC12から第2音コンテンツC22に切り替えて再生する。このため、ユーザに与える違和感を効果的に低減することができる。 In the playback method, at the timing when the playback of the first video content C11 ends, the playback is switched from the first video content C11 to the second video content C21, and the first sound content C12 is changed to the second sound content C22. Switch and play. For this reason, the discomfort given to the user can be effectively reduced.
 また、再生方法において、再生処理では、第1音コンテンツC12の再生が終了しても第1映像コンテンツC11の再生が継続する場合、第1音コンテンツC12の再生を繰り返す。このため、第1映像コンテンツC11の再生中に、第1音コンテンツC12の再生を継続することができる。よって、ユーザに与える違和感を効果的に低減することができる。 Also, in the playback method, in the playback process, when the playback of the first video content C11 continues even after the playback of the first sound content C12 is completed, the playback of the first sound content C12 is repeated. For this reason, during the reproduction of the first video content C11, the reproduction of the first sound content C12 can be continued. Therefore, the uncomfortable feeling given to the user can be effectively reduced.
 また、再生方法において、再生処理では、第1映像コンテンツC11の再生が終了するタイミングで第1音コンテンツC12の再生が終了しない場合、フェードアウトさせることにより当該タイミングで第1音コンテンツC12の再生を停止する。このため、第1音コンテンツC12から第2音コンテンツC22への再生の切り替えをより自然に実現することができる。よって、映像コンテンツおよび音コンテンツを別のコンテンツに切り替えたときにユーザに与える違和感を効果的に低減することができる。 Also, in the playback method, in the playback process, when the playback of the first sound content C12 does not end at the timing when the playback of the first video content C11 ends, the playback of the first sound content C12 is stopped at the timing by fading out. To do. For this reason, switching of reproduction from the first sound content C12 to the second sound content C22 can be realized more naturally. Therefore, it is possible to effectively reduce the uncomfortable feeling given to the user when the video content and the sound content are switched to different content.
 また、再生方法において、再生処理では、第2コンテンツC20の再生において、フェードインさせることにより第2音コンテンツC22の再生を開始する。このため、第1音コンテンツC12から第2音コンテンツC22への再生の切り替えをより自然に実現することができる。よって、映像コンテンツおよび音コンテンツを別のコンテンツに切り替えたときにユーザに与える違和感を効果的に低減することができる。 In the playback method, in the playback process, the playback of the second sound content C22 is started by fading in the playback of the second content C20. For this reason, switching of reproduction from the first sound content C12 to the second sound content C22 can be realized more naturally. Therefore, it is possible to effectively reduce the uncomfortable feeling given to the user when the video content and the sound content are switched to different content.
 [1-4.変形例]
 [1-4-1.変形例1]
 上記実施の形態では、サーバ200が比較部220および生成部230を備える構成としたが、代わりに再生装置が比較部および生成部を備える構成としてもよい。
[1-4. Modified example]
[1-4-1. Modification 1]
In the above-described embodiment, the server 200 includes the comparison unit 220 and the generation unit 230. However, instead, the playback device may include the comparison unit and the generation unit.
 図11は、実施の形態の変形例に係る再生システムの機能構成の一例を示すブロック図である。 FIG. 11 is a block diagram illustrating an example of a functional configuration of a reproduction system according to a modification of the embodiment.
 変形例に係る再生システム1Aは、比較部220および生成部230を備えない構成のサーバ200Aと、比較部220に対応する比較部140、および、生成部230に対応する生成部150を備える再生装置100Aとを備える。 A reproduction system 1A according to the modification includes a server 200A having a configuration that does not include the comparison unit 220 and the generation unit 230, a comparison unit 140 that corresponds to the comparison unit 220, and a generation unit 150 that corresponds to the generation unit 230. 100A.
 サーバ200Aでは、通信部240が映像コンテンツDB211に記憶されている複数の映像コンテンツと、音コンテンツDB212に記憶されている複数の音コンテンツとを通信ネットワーク300を介して再生装置100Aに送信する。 In the server 200A, the communication unit 240 transmits a plurality of video contents stored in the video content DB 211 and a plurality of sound contents stored in the sound content DB 212 to the playback device 100A via the communication network 300.
 再生装置100Aでは、通信部110がサーバ200Aによって送信された複数の映像コンテンツおよび複数の音コンテンツを通信ネットワーク300を介して受信する。通信部110は、受信した複数の映像コンテンツおよび複数の音コンテンツをコンテンツDB120に記憶させる。比較部140は、複数の映像コンテンツのそれぞれに含まれる映像属性情報と、複数の音コンテンツのそれぞれに含まれる音属性情報とを比較する。生成部150は、比較部140による比較の結果に応じて、互いに類似する属性情報を有する映像コンテンツおよび音コンテンツで構成されるコンテンツを複数生成し、生成した複数のコンテンツをコンテンツDB120に記憶させる。 In the playback device 100A, the communication unit 110 receives a plurality of video contents and a plurality of sound contents transmitted by the server 200A via the communication network 300. The communication unit 110 stores the received plurality of video contents and the plurality of sound contents in the content DB 120. The comparison unit 140 compares the video attribute information included in each of the plurality of video contents with the sound attribute information included in each of the plurality of sound contents. The generation unit 150 generates a plurality of contents composed of video content and sound content having attribute information similar to each other according to the comparison result by the comparison unit 140, and stores the generated plurality of contents in the content DB 120.
 そして、再生部130は、コンテンツDB120に記憶された複数のコンテンツのうち第1コンテンツC10を再生した後で、第2コンテンツC20を再生する。再生部130による再生処理は、実施の形態と同様であるので説明を省略する。 Then, the reproducing unit 130 reproduces the second content C20 after reproducing the first content C10 among the plurality of contents stored in the content DB 120. Since the reproduction processing by the reproduction unit 130 is the same as that in the embodiment, description thereof is omitted.
 [1-4-2.変形例2]
 上記実施の形態における再生装置100は、コンテンツC10、C20を再生する場合、コンテンツC10、C20とともに、アンビエント度に関する画像を表示してもよい。画像は、コンテンツC10、C20のアンビエント度を示す画像、及び、図示しないリモコンなどの受付部により受け付けたアンビエント度の範囲を示す画像の少なくとも一方を含んでいてもよい。
[1-4-2. Modification 2]
When reproducing the contents C10 and C20, the reproducing apparatus 100 in the above embodiment may display an image related to the ambient degree together with the contents C10 and C20. The image may include at least one of an image indicating the ambient degree of the contents C10 and C20 and an image indicating the range of the ambient degree received by a receiving unit such as a remote controller (not shown).
 コンテンツC10、C20とともにアンビエント度に関する画像をディスプレイ105に表示されることで、ユーザは、再生されているコンテンツC10、C20とともに当該画像を視認する。ユーザは、アンビエント度を示す画像を視認すれば、現在再生されているコンテンツC10、C20のアンビエント度を認識することができる。また、ユーザは、アンビエント度の範囲を示す画像を視認すれば、自身が指定しているアンビエント度の範囲を認識することができる。これらを認識することで、ユーザは、例えば、指定しているアンビエント度を現在より高く又は低く変更することを受付部を通じて再生装置100に指示することができる。 By displaying an image relating to the ambient degree together with the contents C10 and C20 on the display 105, the user visually recognizes the image together with the reproduced contents C10 and C20. If the user visually recognizes an image indicating the degree of ambient, the user can recognize the degree of ambient of the contents C10 and C20 that are currently reproduced. Further, the user can recognize the range of the ambient degree designated by the user by visually recognizing the image indicating the range of the ambient degree. By recognizing these, for example, the user can instruct the playback device 100 to change the specified ambient degree higher or lower than the current degree through the reception unit.
 なお、アンビエント度に関する画像を提示することに代えて、又は、ともに、アンビエント度に関する音声をスピーカ106により出力してもよく、上記と同様の効果が得られる。 Note that, instead of presenting an image relating to the ambient degree, or together, a sound relating to the ambient degree may be output by the speaker 106, and the same effect as described above can be obtained.
 [1-5.その他の効果]
 また、本実施の形態及び本変形例に示される再生装置の制御方法によれば、再生装置は、コンテンツに紐付けられた指標を、その指標の範囲でもって指定することで、再生させるコンテンツを指定し得る。その際、ユーザは、検索キーを想起する必要はない。ユーザは、コンテンツに紐付けられた指標の大まかな値を、その範囲でもって指定するだけで、再生装置により再生させるコンテンツを指定し得る。このように、再生装置は、より柔軟なコンテンツの指定を可能とする。また、柔軟なコンテンツの指定を可能とするので、ユーザの意図を反映したコンテンツの決定に失敗した場合における再生装置の処理負荷及び消費電力の増大の問題を未然に回避し得る。
[1-5. Other effects]
Further, according to the control method of the playback device shown in the present embodiment and this modification, the playback device specifies the index associated with the content within the range of the index, and thereby the content to be played back Can be specified. At that time, the user need not recall the search key. The user can specify the content to be played back by the playback device simply by specifying the rough value of the index associated with the content within the range. In this way, the playback device enables more flexible content specification. Also, since flexible content specification is possible, the problem of increase in processing load and power consumption of the playback device when determination of content reflecting the user's intention fails can be avoided.
 また、再生装置は、再生されているコンテンツに対してユーザが向ける注意の度合いを示す推定指標を、具体的に指標として用いることによって、より柔軟なコンテンツの指定を可能とする。 Also, the playback device enables more flexible content specification by using, as a specific index, an estimated index that indicates the degree of attention that the user directs to the content being played back.
 また、再生装置、サーバまたは情報処理装置は、コンテンツに含まれる映像と音とのそれぞれに対してユーザが向ける注意の度合いに基づいて、コンテンツに紐付けられる指標を算出する。これにより、コンテンツに含まれる映像と音とを考慮してコンテンツの指標を算出することができる。 Also, the playback device, server, or information processing device calculates an index associated with the content based on the degree of attention that the user has directed to each of the video and sound included in the content. As a result, the content index can be calculated in consideration of the video and sound included in the content.
 また、再生装置、サーバまたは情報処理装置は、映像指標と音指標とのうちの音指標の重みを重くした加重平均により、コンテンツに紐付けられる指標を算出する。一般に人が、再生装置が提示する映像に対して意図的に注意を向けないようにすることは比較的容易であるが、音に対して意図的に注意を向けないようにするのは容易ではない。つまり、再生装置が提示する音から意図的に注意を背けることは難しいという特徴がある。そこで、コンテンツに紐付けられる指標において、音に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツの指定に用いる指標を、ユーザが向ける注意の度合いについての感覚に即した指標にすることができる。 Also, the playback device, server, or information processing device calculates an index associated with the content by a weighted average obtained by increasing the weight of the sound index of the video index and the sound index. In general, it is relatively easy for a person not to pay attention to the video presented by the playback device, but it is not easy to intentionally not pay attention to the sound. Absent. In other words, it is difficult to intentionally turn away from the sound presented by the playback device. Therefore, in the index linked to the content, the contribution of the degree of attention directed by the person to the sound is relatively increased, so that the index used for specifying the content can be adapted to the sense of the degree of attention directed by the user. Index.
 また、再生装置、サーバまたは情報処理装置は、映像指標と音指標とのうちの映像指標の重みを重くした加重平均により、コンテンツに紐付けられる指標を算出する。一般に、コンテンツを表示する表示画面の寸法が大きいと、ユーザは、映像から注意を背けることが難しい。このような場合に、コンテンツに紐付けられる指標において、映像に対して人が向ける注意の度合いの寄与を相対的に大きくすることで、コンテンツの指定に用いる指標を、ユーザが向ける注意の度合いについての感覚に即した指標にすることができる。 Also, the playback device, server, or information processing device calculates an index associated with the content by a weighted average obtained by increasing the weight of the video index of the video index and the sound index. In general, when the size of a display screen for displaying content is large, it is difficult for the user to distract from the video. In such a case, in the index associated with the content, the index of the index used for specifying the content is set with respect to the degree of the attention directed by the user by relatively increasing the contribution of the degree of attention directed by the person to the video. It can be an indicator that matches the sense of
 また、再生装置、サーバまたは情報処理装置は、コンテンツに含まれる映像の明度、彩度、色相、又は、シーンチェンジの態様を具体的に用いて、映像指標を算出し得る。 Also, the playback device, server, or information processing device can calculate the video index by specifically using the brightness, saturation, hue, or scene change mode of the video included in the content.
 また、再生装置、サーバまたは情報処理装置は、コンテンツに含まれる音量、周波数分布、又は、音量の変化の態様を具体的に用いて、音指標を算出し得る。 Also, the playback device, server, or information processing device can calculate the sound index by specifically using the volume, frequency distribution, or volume change mode included in the content.
 また、再生装置、サーバまたは情報処理装置は、再生しているコンテンツとともに、当該コンテンツに紐付けられている指標をユーザに提示することで、コンテンツの指標をユーザに認識させることができる。そして、ユーザが再生装置に提示させることを希望するコンテンツと、ユーザが指定した指標の範囲とが適合しているか否かなどについての判断等をユーザにさせることができる。 Also, the playback device, server, or information processing device can cause the user to recognize the index of the content by presenting the index associated with the content along with the content being played back to the user. Then, it is possible to cause the user to make a determination as to whether or not the content that the user wants to present on the playback apparatus is compatible with the index range designated by the user.
 また、再生装置、サーバまたは情報処理装置は、映像コンテンツと音コンテンツとをともに再生する場合に、再生する映像コンテンツと音コンテンツとの指標がともに、ユーザが指定した範囲に含まれるものとすることができる。これにより、ユーザは、再生装置により、同じ程度の注意を向けると推定される映像コンテンツと音コンテンツとをともに再生させることができる。 In addition, when the playback device, the server, or the information processing device plays back both video content and sound content, both the index of the video content and sound content to be played back are included in the range specified by the user. Can do. Thus, the user can play both the video content and the sound content that are estimated to have the same level of attention by the playback device.
 また、再生装置は、サーバに予めコンテンツを格納する際に指標を提示することで、コンテンツ提供者に対して、コンテンツに紐付けられた指標を認識させることができる。 Also, the playback device can cause the content provider to recognize the index associated with the content by presenting the index when the content is stored in the server in advance.
 また、再生装置は、コンテンツの調整をしてから調整後のコンテンツの指標をコンテンツ提供者に認識させることができる。コンテンツ提供者は、調整後のコンテンツの指標を認識することで、自身が提供したコンテンツに対してなされた調整の結果を確認し、その結果に基づいてサーバに格納するかどうかの判断をするなどの行動を行うことができる。 Also, the playback device can make the content provider recognize the adjusted content index after adjusting the content. The content provider recognizes the index of the adjusted content, confirms the result of the adjustment made to the content provided by itself, and determines whether to store it in the server based on the result Can take action.
 (他の実施の形態)
 なお、上記各実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されるとしたが、専用のハードウェアで構成されてもよい。また、各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の再生方法などを実現するソフトウェアは、次のようなプログラムである。
(Other embodiments)
In each of the above embodiments, each component is realized by executing a software program suitable for each component, but may be configured by dedicated hardware. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. Here, the software that realizes the reproduction method of each of the above embodiments is the following program.
 すなわち、このプログラムは、コンピュータに、互いに独立している第1映像コンテンツおよび第1音コンテンツで構成される第1コンテンツを取得し、互いに独立している第2映像コンテンツおよび第2音コンテンツで構成される第2コンテンツを取得し、取得した前記第1コンテンツを再生した後で、取得した前記第2コンテンツを再生する再生方法を実行させる。 That is, this program acquires the first content composed of the first video content and the first sound content independent from each other to the computer, and is composed of the second video content and the second sound content independent from each other. After the acquired second content is acquired and the acquired first content is reproduced, a reproduction method for reproducing the acquired second content is executed.
 以上、本発明の一つまたは複数の態様に係る再生方法、再生システム、および再生装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。 As described above, the playback method, playback system, and playback device according to one or more aspects of the present invention have been described based on the embodiment, but the present invention is not limited to this embodiment. Unless it deviates from the gist of the present invention, one or more of the present invention may be applied to various modifications that can be conceived by those skilled in the art, or forms constructed by combining components in different embodiments. It may be included within the scope of the embodiments.
 なお、上記実施の形態に係る再生装置100では、再生部130は、第1コンテンツC10の第1映像コンテンツC11の再生が終了する第1タイミングで、第1音コンテンツC12の再生を停止し、かつ、第2コンテンツC20の再生を開始するとしたが、これに限らない。例えば、映像コンテンツのアンビエント度が所定値よりも大きく、音コンテンツのアンビエント度が所定値より小さい場合、上記のように、第1音コンテンツC12の再生が終了するタイミングで、第1映像コンテンツC11の途中で第2映像コンテンツC21に切り替える処理を行っても、ユーザに与える違和感は小さい。 In the playback device 100 according to the above embodiment, the playback unit 130 stops the playback of the first sound content C12 at the first timing when the playback of the first video content C11 of the first content C10 ends, and Although the reproduction of the second content C20 is started, the present invention is not limited to this. For example, when the ambient level of the video content is larger than a predetermined value and the ambient level of the sound content is smaller than the predetermined value, as described above, at the timing when the reproduction of the first audio content C12 ends, the first video content C11 Even if the process of switching to the second video content C21 is performed on the way, the uncomfortable feeling given to the user is small.
 このため、再生部130は、映像アンビエント度が所定値(または所定のランク)より大きく、かつ、音アンビエント度が所定値(または所定のランク)より小さいか否かを判定してもよい。そして、再生部130は、判定の結果、映像アンビエント度が所定値(または所定のランク)より大きく、かつ、音アンビエント度が所定値(または所定のランク)より小さい場合、第1コンテンツC10の第1音コンテンツC12の再生が終了するタイミングで、第1映像コンテンツC11の再生を停止し、かつ、第2コンテンツC20の再生を開始してもよい。 Therefore, the playback unit 130 may determine whether the video ambient degree is larger than a predetermined value (or a predetermined rank) and whether the sound ambient degree is smaller than a predetermined value (or a predetermined rank). Then, as a result of the determination, when the video ambient degree is larger than a predetermined value (or predetermined rank) and the sound ambient degree is smaller than the predetermined value (or predetermined rank), the reproducing unit 130 determines that the first content C10 The reproduction of the first video content C11 may be stopped and the reproduction of the second content C20 may be started at the timing when the reproduction of the one-sound content C12 ends.
 例えば、上記実施の形態では、音アンビエント度は、コンテンツの音の音量、音の周波数分布、又は、音量の変化の態様に基づいて算出する説明をした。しかし、これに限定されるものではなく、音の周波数特性の中でも、いわゆる『1/fゆらぎ』と呼ばれる特性との近似性や倍音成分の多寡、音色の波形の規則性(数Hz以下の周波数領域)などを考慮してもよい。 For example, in the above-described embodiment, the sound ambient degree is described based on the volume of the sound of the content, the frequency distribution of the sound, or the change of the volume. However, the present invention is not limited to this. Among the sound frequency characteristics, the approximation with the so-called “1 / f fluctuation” characteristic, the number of overtone components, the regularity of the timbre waveform (frequency of several Hz or less) Area) and the like.
 なお、音アンビエント度は、映像アンビエント度に比べ、研究段階の指標であるが、200Hz付近の中音域の音は、ボーカルや人の話し声などに相当し、人間にとって耳につきやすい音域であることが分かっている。したがって、ユーザが向ける注意の度合いが大きくなり、コンシャス度が上がる(アンビエント度が下がる)と考えられる。 Note that the sound ambient level is an index at the research stage compared to the video ambient level, but the mid-range sound around 200 Hz is equivalent to vocals and human speech, and is likely to be heard by humans. I know it. Therefore, it is considered that the degree of attention directed by the user increases, and the degree of consciousness increases (the degree of ambient decreases).
 人間は自然界に存在する(人工的に加工されていない)広い帯域の音を聞きながら生活しているが、脳は、これらの広い帯域の音を常に無意識に処理している。人間の脳は、倍音構造の変化や微妙な遅れなどを手掛かりとして通常と異なる音を判別し、危険を察知するために注意の度合いが大きくなる。すなわち、コンシャス度が上がる(アンビエント度が下がる)と考えられる。 Human beings live while listening to sounds in a wide band that exist in nature (not artificially processed), but the brain always processes these wide band sounds unconsciously. The human brain discriminates unusual sounds using clues such as overtone structure changes and subtle delays, and the degree of attention increases in order to detect danger. That is, it is considered that the degree of consciousness increases (the degree of ambient decreases).
 また、人間の脳は、自然と異なるものを無意識に補完して理解しようとするため、自然界と異なる音を聞いたときには、脳のリソースを使ってしまうこととなり、コンシャス度が上がる(アンビエント度が下がる)と考えられる。したがって、ユーザの注意の度合いを大きくするために作曲された音楽が、コンシャス度が高い(アンビエント度が低い)だけではなく、川のせせらぎのような自然界に存在する音も、録音環境(マイクや記録装置の性能)によっては、アンビエント度が下がると考えられる。 In addition, the human brain tries to understand what is different from nature by unknowingly complementing it, so when listening to sounds that are different from the natural world, it will use brain resources, increasing the degree of consciousness (the degree of ambient is increased). It is thought that). Therefore, music that is composed to increase the degree of user's attention is not only highly conscious (low ambient), but also sounds that exist in the natural world, such as river buzz, can be recorded in a recording environment (such as a microphone or Depending on the performance of the recording device, the degree of ambient may be reduced.
 本開示は、映像コンテンツおよび音コンテンツを別のコンテンツに切り替えたときにユーザに与える違和感を低減することができる再生方法等に適用可能である。 This disclosure can be applied to a playback method or the like that can reduce a sense of discomfort given to a user when video content and sound content are switched to different content.
  1、1A  再生システム
100、100A  再生装置
101  CPU
102  メインメモリ
103  ストレージ
104  通信IF
105  ディスプレイ
106  スピーカ
110  通信部
120  コンテンツDB
130  再生部
131  映像再生部
132  音再生部
140  比較部
150  生成部
200、200A  サーバ
201  CPU
202  メインメモリ
203  ストレージ
204  通信IF
210  データベース
211  映像コンテンツDB
212  音コンテンツDB
220  比較部
230  生成部
240  通信部
300  通信ネットワーク
400  情報処理装置
401  CPU
402  メインメモリ
403  ストレージ
404  通信IF
405  入力IF
410  コンテンツDB
420  登録部
430  入力受付部
440  通信部
C10  第1コンテンツ
C11  第1映像コンテンツ
C12  第1音コンテンツ
C20  第2コンテンツ
C21  第2映像コンテンツ
C22  第2音コンテンツ
1, 1A playback system 100, 100A playback device 101 CPU
102 Main memory 103 Storage 104 Communication IF
105 Display 106 Speaker 110 Communication Unit 120 Content DB
130 playback unit 131 video playback unit 132 sound playback unit 140 comparison unit 150 generation unit 200, 200A server 201 CPU
202 Main memory 203 Storage 204 Communication IF
210 Database 211 Video content DB
212 Sound content DB
220 Comparison Unit 230 Generation Unit 240 Communication Unit 300 Communication Network 400 Information Processing Device 401 CPU
402 Main memory 403 Storage 404 Communication IF
405 Input IF
410 Content DB
420 registration unit 430 input reception unit 440 communication unit C10 first content C11 first video content C12 first sound content C20 second content C21 second video content C22 second sound content

Claims (9)

  1.  互いに独立している第1映像コンテンツおよび第1音コンテンツで構成される第1コンテンツを取得し、
     互いに独立している第2映像コンテンツおよび第2音コンテンツで構成される第2コンテンツを取得し、
     取得した前記第1コンテンツを再生した後で、取得した前記第2コンテンツを再生する
     再生方法。
    Obtaining first content composed of first video content and first sound content independent of each other;
    Obtaining second content composed of second video content and second sound content independent of each other;
    A playback method for playing back the acquired second content after playing back the acquired first content.
  2.  さらに、
     複数の映像コンテンツのそれぞれに含まれる映像属性情報と、複数の音コンテンツのそれぞれに含まれる音属性情報とを比較し、
     比較した結果に応じて、互いに類似する属性情報を有する映像コンテンツおよび音コンテンツで構成されるコンテンツを複数生成し、
     前記第1コンテンツの取得では、生成された前記複数のコンテンツの中から前記第1コンテンツを取得し、
     前記第2コンテンツの取得では、生成された前記複数のコンテンツの中から前記第2コンテンツを取得する
     請求項1に記載の再生方法。
    further,
    Compare the video attribute information included in each of the plurality of video contents with the sound attribute information included in each of the plurality of sound contents,
    According to the comparison result, a plurality of contents composed of video contents and sound contents having attribute information similar to each other are generated,
    In the acquisition of the first content, the first content is acquired from the plurality of generated contents,
    The playback method according to claim 1, wherein in acquiring the second content, the second content is acquired from the plurality of generated contents.
  3.  前記映像属性情報は、前記映像コンテンツに含まれる映像に紐付けられる指標であって、再生されている前記映像コンテンツに対してユーザが向ける注意の度合いを示す推定指標である映像指標を含み、
     前記音属性情報は、前記音コンテンツに含まれる音に紐付けられる指標であって、再生されている前記音コンテンツに対してユーザが向ける注意の度合いを示す推定指標である音指標を含み、
     前記比較では、前記映像指標と、前記音指標とを比較する
     請求項2に記載の再生方法。
    The video attribute information is an index associated with a video included in the video content, and includes a video index that is an estimation index indicating a degree of attention directed by the user to the video content being played back,
    The sound attribute information includes an index associated with a sound included in the sound content, and a sound index that is an estimation index indicating a degree of attention directed by the user to the sound content being reproduced,
    The reproduction method according to claim 2, wherein in the comparison, the video index is compared with the sound index.
  4.  前記再生では、前記第1コンテンツの前記第1映像コンテンツの再生が終了する第1タイミングで、前記第1音コンテンツの再生を停止し、かつ、前記第2コンテンツの再生を開始する
     請求項1から3のいずれか1項に記載の再生方法。
    2. The reproduction stops the reproduction of the first sound content and starts reproduction of the second content at a first timing when the reproduction of the first video content of the first content ends. 4. The reproduction method according to any one of items 3.
  5.  前記再生では、前記第1音コンテンツの再生が終了しても前記第1映像コンテンツの再生が継続する場合、前記第1音コンテンツの再生を繰り返す
     請求項4に記載の再生方法。
    5. The playback method according to claim 4, wherein, in the playback, when the playback of the first video content continues even after the playback of the first sound content ends, the playback of the first sound content is repeated.
  6.  前記再生では、前記第1タイミングで前記第1音コンテンツの再生が終了しない場合、フェードアウトさせることにより前記第1タイミングで前記第1音コンテンツの再生を停止する
     請求項4または5に記載の再生方法。
    6. The playback method according to claim 4, wherein if the playback of the first sound content does not end at the first timing, the playback of the first sound content is stopped at the first timing by fading out. 6. .
  7.  前記再生では、前記第2コンテンツの再生において、フェードインさせることにより前記第2音コンテンツの再生を開始する
     請求項4から6のいずれか1項に記載の再生方法。
    The reproduction method according to any one of claims 4 to 6, wherein in the reproduction, reproduction of the second sound content is started by fading in the reproduction of the second content.
  8.  それぞれが互いに独立している、複数の映像コンテンツおよび複数の音コンテンツを記憶しているサーバと、
     前記サーバと通信ネットワークを介して接続されている再生装置とを備え、
     前記再生装置は、
     前記サーバから前記通信ネットワークを介して、前記複数の映像コンテンツのうちの第1映像コンテンツ、および、前記複数の音コンテンツのうちの第1音コンテンツとで構成される第1コンテンツと、前記複数の映像コンテンツのうちの第2映像コンテンツ、および、前記複数の音コンテンツのうちの第2音コンテンツとで構成される第2コンテンツとを取得する取得部と、
     前記取得部により取得された前記第1コンテンツを構成する前記第1映像コンテンツおよび前記第1音コンテンツを少なくとも1回再生した後で、取得した前記第2コンテンツを構成する前記第2映像コンテンツおよび前記第2音コンテンツを再生する再生部と、を備える
     再生システム。
    A server storing a plurality of video contents and a plurality of sound contents, each of which is independent of each other;
    A playback device connected to the server via a communication network,
    The playback device
    A plurality of the first video contents of the plurality of video contents and a first sound content of the plurality of sound contents via the communication network from the server; An acquisition unit that acquires a second video content of the video content and a second content composed of the second sound content of the plurality of sound content;
    After the first video content and the first sound content constituting the first content obtained by the obtaining unit are reproduced at least once, the second video content constituting the obtained second content and And a playback unit that plays back the second sound content.
  9.  外部のサーバから通信ネットワークを介して、互いに独立している第1映像コンテンツおよび第1音コンテンツで構成される第1コンテンツと、互いに独立している第2映像コンテンツおよび第2音コンテンツで構成される第2コンテンツとを取得する取得部と、
     前記取得部により取得された前記第1コンテンツを構成する前記第1映像コンテンツおよび前記第1音コンテンツを少なくとも1回再生した後で、取得した前記第2コンテンツを構成する前記第2映像コンテンツおよび前記第2音コンテンツを再生する再生部と、を備える
     再生装置。
    The first content is composed of the first video content and the first sound content that are independent from each other via the communication network from the external server, and the second video content and the second sound content are independent from each other. An acquisition unit for acquiring the second content;
    After the first video content and the first sound content constituting the first content obtained by the obtaining unit are reproduced at least once, the second video content constituting the obtained second content and A playback unit that plays back the second sound content.
PCT/JP2018/005613 2017-02-21 2018-02-19 Reproduction method, reproduction system, and reproduction apparatus WO2018155351A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762461432P 2017-02-21 2017-02-21
US62/461432 2017-02-21
JP2017190030A JP2020065099A (en) 2017-02-21 2017-09-29 Reproducing method, reproducing system, and reproducing apparatus
JP2017-190030 2017-09-29

Publications (1)

Publication Number Publication Date
WO2018155351A1 true WO2018155351A1 (en) 2018-08-30

Family

ID=63252596

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/005613 WO2018155351A1 (en) 2017-02-21 2018-02-19 Reproduction method, reproduction system, and reproduction apparatus

Country Status (1)

Country Link
WO (1) WO2018155351A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005184617A (en) * 2003-12-22 2005-07-07 Casio Comput Co Ltd Moving image reproducing apparatus, image pickup device and its program
JP2006014084A (en) * 2004-06-28 2006-01-12 Hiroshima Univ Video editing apparatus, video editing program, recording medium, and video editing method
JP2011216178A (en) * 2010-03-18 2011-10-27 Panasonic Corp Reproducing device, reproducing system, and server

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005184617A (en) * 2003-12-22 2005-07-07 Casio Comput Co Ltd Moving image reproducing apparatus, image pickup device and its program
JP2006014084A (en) * 2004-06-28 2006-01-12 Hiroshima Univ Video editing apparatus, video editing program, recording medium, and video editing method
JP2011216178A (en) * 2010-03-18 2011-10-27 Panasonic Corp Reproducing device, reproducing system, and server

Similar Documents

Publication Publication Date Title
US11941321B2 (en) Audio conflict resolution
US7725203B2 (en) Enhancing perceptions of the sensory content of audio and audio-visual media
KR101251626B1 (en) Sound compensation service providing method for characteristics of sound system using smart device
US11812240B2 (en) Playback of generative media content
CN101536609A (en) Control of light in response to an audio signal
CN104520924A (en) Encoding and rendering of object based audio indicative of game audio content
US11483670B2 (en) Systems and methods of providing spatial audio associated with a simulated environment
US9053710B1 (en) Audio content presentation using a presentation profile in a content header
US10827264B2 (en) Audio preferences for media content players
CN114615534A (en) Display device and audio processing method
CN114466242A (en) Display device and audio processing method
WO2018155351A1 (en) Reproduction method, reproduction system, and reproduction apparatus
US20200081681A1 (en) Mulitple master music playback
CN114598917B (en) Display device and audio processing method
WO2018155352A1 (en) Electronic device control method, electronic device, electronic device control system, and program
JP4922462B1 (en) Content playback apparatus and content playback method
WO2018155353A1 (en) Generation method, generation device, reproduction method, and reproduction system
CN114466241A (en) Display device and audio processing method
JP2020065099A (en) Reproducing method, reproducing system, and reproducing apparatus
WO2022109556A2 (en) Playback of generative media content
GB2456835A (en) Media content with embedded control data
JP5349171B2 (en) Karaoke system with performance condition setting function
JP2020065096A (en) Generating method, generating apparatus, reproducing method, and reproducing system
JP6474292B2 (en) Karaoke equipment
US11985376B2 (en) Playback of generative media content

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18758192

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18758192

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP