WO2020048778A1 - Method for controlling a multimedia device, and computer program and device therefor - Google Patents

Method for controlling a multimedia device, and computer program and device therefor Download PDF

Info

Publication number
WO2020048778A1
WO2020048778A1 PCT/EP2019/072395 EP2019072395W WO2020048778A1 WO 2020048778 A1 WO2020048778 A1 WO 2020048778A1 EP 2019072395 W EP2019072395 W EP 2019072395W WO 2020048778 A1 WO2020048778 A1 WO 2020048778A1
Authority
WO
WIPO (PCT)
Prior art keywords
multimedia
vehicle occupant
vehicle
piece
output
Prior art date
Application number
PCT/EP2019/072395
Other languages
German (de)
French (fr)
Inventor
Lenne Ahrens
Jihad MIRAMO
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2020048778A1 publication Critical patent/WO2020048778A1/en

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/023Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for transmission of signals between vehicle parts or subsystems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel

Definitions

  • the invention relates to a method for controlling a multimedia device and a computer program and a device for performing the method according to the independent claims.
  • DE 102013218291 A1 describes a method for automatic volume control for favorite pieces of music during playback.
  • the solution described there relates generally to vehicle audio systems.
  • camera systems which detect a vehicle interior and can recognize and identify a vehicle driver from the recorded images or video signals, for example by means of face recognition software. This can be used, for example, to adapt vehicle settings to the vehicle driver based on stored data to the preferences of the vehicle driver.
  • EP 2857276 A2 describes a system which adjusts a music playback in a vehicle in response to a detected behavior of the vehicle driver which is representative of his mood. If, for example, an unstable posture of the vehicle driver is determined, from which it can be concluded that the vehicle driver is in a negative mood, the music playback can be adapted, for example, to produce a quieter environment in order to have a positive influence on the driver's mood.
  • playlists can be created in today's multimedia systems, in which preferred multimedia pieces, that is to say music pieces, video films or other content, can be stored by one or more users, so that these can be selected by the user can be accessed appropriately or the corresponding content preferred by the respective user can be reproduced.
  • the invention with the features of the independent patent claims has the advantage that a driver's preferences with regard to multimedia pieces reproduced by a multimedia device are automatically recorded and used to control subsequent playback of multimedia pieces.
  • the invention thus helps to adapt the output of multimedia pieces to the preferences of the user.
  • a multimedia piece is understood to mean a unit of a multimedia content that can be divided into sections.
  • a multimedia piece can be, for example, a piece of music, a video film, an advertisement, a report, news, or the like.
  • a method for controlling a multimedia device which is set up for operation in a vehicle, is proposed, the multimedia device being set up to output a multimedia piece via a playback device in the vehicle for presentation to a vehicle occupant, in which
  • the external device can be a radio transmitter from which the multimedia piece has been broadcast or an advertising agency or other places interested in the preferences of the vehicle occupants. It goes without saying
  • sensory detection of reactions of the vehicle occupant is meant that sensors are available which are designed to detect the vehicle interior and that reactions of the vehicle occupant are recognized from the signals of these sensors by means of recognition software.
  • a camera can be provided for capturing the vehicle interior.
  • the video signals provided by the camera contain video images of the vehicle occupant, which are evaluated using image recognition algorithms. Suitable image recognition algorithms are, for example, face recognition, facial expression recognition, direction of view recognition, emotion recognition (e.g. FACS https://de.wikipedia.org/wiki/Facial_Action_Coding_System), lip reading
  • Recognition gesture recognition, body pose recognition, or the like.
  • the result of facial expression recognition, lip reading or gesture recognition is the recognized reaction of the vehicle occupant.
  • different approaches to reaction recognition can be combined to form a common recognized reaction, for example gesture recognition and lip reading or lip reading and microphone signal-based speech recognition.
  • Parameters of the multimedia piece can in particular be or include descriptors of the multimedia piece.
  • the descriptors can include information received via the radio data signal (RDS) about the title and artist of the music title. These enable identification of the piece of music or music title.
  • RDS radio data signal
  • the descriptors stored in the signal memory or on the data carrier for example film titles or, in the case of a video film series, series titles and sequence numbers and / or sequence titles can be identified .
  • parameters can also include a genre of a piece of music, some pop music, rock music, classical music, a rhythm or a speed of a piece of music, for example in beats per minute.
  • an assessment made by the method can also be interpreted as an assessment relating to a genre of multimedia pieces, such as pop or classical music, etc.
  • the multimedia pieces are evaluated by means of machine processing, which comprises a machine learning method known per se (machine learning).
  • Machine learning methods are known, for example, from the field of speech recognition and dictation software.
  • Input signals such as voice signals recorded via a microphone, are recorded, compared with any previous knowledge, in the case of speech recognition, for example a lexicon, and a recognition of speech signals recorded via the microphone is improved or expanded therefrom, the existing lexicon also having newly recognized words can be expanded.
  • machine processing serves to independently learn or classify user preferences here of the vehicle occupant with regard to certain multimedia pieces or, as a result, more general specific multimedia content based on his, that is, the reactions of the vehicle occupant.
  • multimedia pieces or contents are subsequently selected and made available more specifically for output and playback to the vehicle occupants.
  • This can be, for example, a prioritization of certain pieces of music over other pieces of music, a prioritization of a type of music, such as generally from classical music over modern pop or rock music, a prioritization of a genre, such as reports over news over music playback, or also a prioritization of one certain radio broadcasts that are temporarily and / or location-dependent receivable by radio compared to a television broadcast, which in turn mean compared to stored pieces of music.
  • This adaptation or personalization can preferably also be person-related. Is to In addition, identification of the vehicle occupant is required, which can be implemented, for example, by means of known facial recognition in image or video signals recorded in the vehicle interior.
  • Video signals of a vehicle interior are advantageously recorded and reactions of the vehicle occupant are derived from the video signals.
  • the sensory detection of the reactions of the vehicle occupants to a currently reproduced multimedia piece takes place with a video camera, which is set up to capture the vehicle interior or parts of the vehicle interior.
  • a video camera which is set up to capture the vehicle interior or parts of the vehicle interior.
  • Such camera-based systems are already used in vehicles in connection with driver observation, for example for fatigue detection and possibly triggering warning signals.
  • Poses or changes in poses of the vehicle occupant are advantageously determined from the video signals and the changes in poses or poses are interpreted in order to evaluate the multimedia piece that is output.
  • Poses are understood to mean a posture or the posture of a part of the body, such as a hand, an arm or the head of the vehicle occupant.
  • a change in poses means a movement of the body or a part of the body, something a hand or arm movement or a head movement like something a nod or head-shake in the vehicle occupant.
  • a known pattern-based image or video evaluation method is used.
  • the interpretation includes, for example, the interpretation of a detected pose or pose change, for example a head shake-in as a negative, a head nod as a positive evaluation of a currently played multimedia piece.
  • a body posture estimation using algorithms such as "convolutional pose machines” can check, among other things, whether the vehicle occupants are dancing or otherwise reacting to the multimedia piece. This is done by correlating parameters such as "beats per minute" from one current
  • a facial expression of the vehicle occupant is advantageously determined from the video signals and the determined facial expression for evaluating the
  • FACS facial action Coding System
  • SVR support vector regressors
  • the features used can be extracted, for example, from the 3D positions of the facial landmarks.
  • the system can assign an emotion to the current multimedia piece. For example, if the emotion of joy is recognized when a certain song is played on the radio, the learning algorithm increases it
  • the video signals are advantageous.
  • Lip movements of the vehicle occupant are determined and the determined lip movements for evaluating the multimedia piece output
  • a video-based lip reading algorithm can be used to recognize what the vehicle occupant has spoken and to derive an evaluation. Singing along of a currently played piece of music can also be recognized, for example, and interpreted as approval or positive evaluation of the piece of music. In order to recognize singing along, the knowledge of the piece of music currently being played back in the multimedia device can advantageously be used, for example by comparing the results of lip reading with a known piece of music text.
  • acoustic signals in the vehicle interior can also advantageously be detected and vocalizations of the vehicle occupant can be recognized therefrom as reactions of the vehicle occupants, the vocalizations being interpreted for evaluating the multimedia piece that is output.
  • Vocalizations can be spoken language, for example. These can be interpreted using a speech recognition process. Disagreeable statements that should not be reproduced here can be considered a negative evaluation of the
  • Multimedia pieces are interpreted, a sing along as a positive evaluation.
  • the utterances can be recorded using a microphone arranged in the vehicle interior. This can be done just like voice recognition
  • the multimedia device has knowledge of the sound signals output, so that the user is acoustically uttered using known algorithms from the sum of the acoustic signals or Noise can be isolated.
  • operator access by the vehicle occupant to the multimedia device can also be recorded and an evaluation of the multimedia piece output can be derived therefrom.
  • Operating accesses are, for example, the manual actuation of switches or other operating elements. Operator access also includes gesture control or voice control as stated above.
  • An operating access which is used, for example, to skip a piece of music currently being played by the multimedia device or its
  • Program code which is set up to carry out the method when processed on a computer or such a device.
  • the device can be or include the multimedia device itself. However, it can also be a control device remote from the multimedia device, which is used with the multimedia device for data transmission, in particular here
  • Handheld device such as a smartphone or other suitable device, which, for example, can be used and operated in a holding device on the windshield or a center console in the vehicle.
  • the computer program can advantageously be set up to be processed on the multimedia device.
  • the computer program can also be set up to be processed on the control device mentioned, which is remote from the multimedia device.
  • FIG. 1 shows a block diagram of an advantageous embodiment of a device for carrying out the method according to the invention
  • FIG. 2 is a flowchart of an advantageous embodiment of the method according to the invention.
  • FIG. 1 shows a block diagram of an advantageous embodiment of a device, here in the form of the multimedia device 1, for carrying out the method according to the invention.
  • the multimedia device 1 is for operation in one
  • Vehicle in particular a motor vehicle provided and set up.
  • the multimedia device comprises a controller 15, which is executed in the form of a processor with an associated operating program which is processed on the processor.
  • two sources 11 and 12 are connected to the controller 15 as an example.
  • the first source 11 is, for example, a radio receiver which is designed to be tuned to a radio frequency, to demodulate the radio signal transmitted via it and to make the information contained available.
  • the information provided includes the content of the radio program, in particular
  • Audio signals such as pieces of music, reports, news or other radio programs.
  • the information provided also includes data, such as data of the radio data signal (RDS) comprising radio program identifier of a currently received radio program, information about current
  • RDS radio data signal
  • transferred content such as title and artist of a piece of music currently being broadcast as part of the radio program, including the genre of
  • Broadcasting program in the present case, for example, an identifier for a program with predominantly classical music.
  • the Internet can advantageously also be provided here as a further source, which serves to provide the machine learning component 20 with more information about the multimedia piece.
  • the second source 12 is, for example, a playback device for mass storage, for example for chip cards or hard disk storage or the like.
  • the second source also provides descriptors for the multimedia pieces contained and, if appropriate, currently being reproduced, such as a film title, for series an additional sequence number or title, a scene number . Further descriptors relate, for example, to the type of multimedia pieces or content made available, such as music, video film, and in addition, for example, the genre of content, such as pop music, rock music, classical music or action film, science fiction film, comedy etc.
  • the controller 15 has, inter alia, the task of selecting one of the two sources 11 and 12 for playback, further selecting the desired contents of the selected source and outputting this to a playback device 13.
  • the reproduction device 13 comprises loudspeakers and preferably a display, via which the content provided by one of the two sources 11 or 12, ie a multimedia piece, for example in the form of a radio broadcast, a piece of music or a video, is output to the vehicle occupants.
  • the controller accesses a user preference memory 25, in which preferences regarding the or one of the vehicle occupants currently identified in the vehicle are to be reproduced
  • a first user represented in the user preference memory 25 is, for example
  • a second user is, for example, a preference for a certain one
  • Radio program such as the sports broadcasts of the ARD broadcasting stations, with decreasing priority then, for example, music assigned to the Queen music group and finally generally rock music.
  • the controller 15 now has the task of converting the preferences stored in the user preference memory 25 as a function of the recognized vehicle occupant according to the availability of the content or multimedia pieces, and a suitable source and the content or multimedia available therefor Select pieces and forward them to the playback device 13 for output. If, for example, the second user has been identified as a vehicle occupant, but no sports coverage is currently being received via radio, the controller 15 selects the second source 12 according to the preferences of the second user and accesses the stored music piece collection there, selects music pieces from the music group Queen and outputs this to the playback device 13 for output.
  • the user preferences are determined in a machine learning component 20.
  • This in turn comprises a microprocessor with software which implements a machine learning algorithm in a manner known per se.
  • the machine learning component 20 is connected to an operating device 21, which is also connected to the controller 15. The vehicle occupant can operate the operating device 21 by actuating one of a plurality of
  • the machine learning component 20 are still on the part of the controller 15
  • Parameters or descriptors are supplied which identify the multimedia pieces or multimedia contents that are being sent to the playback device 13 for playback, that is to say, for example, the title and artist of a piece of music currently being played and the genre of the piece of music.
  • machine learning component 20 is information one
  • reaction detection unit 26 supplied.
  • the reaction detection unit 26 can be designed as a separate functional group, but it can also be integrated into the machine learning component 20. In the present example it is shown as a separate function group.
  • reaction recognition unit 26 is connected to a video-based facial expression recognition unit 22, a video-based pose recognition unit 23 and an audio signal-based speech recognition unit 24.
  • the facial expression recognition unit 22 accesses signals from a video camera arranged in the vehicle.
  • the video camera is aimed at the vehicle interior and is used to capture a vehicle occupant, here in particular the vehicle driver and in connection with facial expression recognition, in particular the face of the vehicle occupant.
  • the facial expression recognition unit 22 has facial expression recognition software which is designed to distinguish, for example, a positive mood of the detected vehicle occupant from a negative mood.
  • the facial expression recognition unit 22 is advantageously further designed to recognize lip movements of the vehicle occupant from the video signals of the video camera and to recognize words spoken by the user or song lyrics sung by the user using lip-reading software.
  • the pose detection unit 23 also accesses the signals from the aforementioned video camera or signals from one or more other video cameras, which are set up to preferably not only the head of the vehicle occupant but also other parts of the body, in particular the hands and Capture arms of vehicle occupants.
  • the pose detection unit has a pose detection software which is designed to detect poses or changes in the pose of the vehicle occupant, in particular head movements such as nodding or shaking heads, hand or finger gestures or similar postures or movements can be interpreted as gestures, evaluated and interpreted in the sense of a positive or negative expression.
  • a hand or arm movement that is synchronous with the multimedia piece is interpreted, for example, as a positive or approving utterance.
  • the speech recognition unit 24 accesses the signals of a microphone arranged in the vehicle interior and is set up to record phonetic or verbal statements by the vehicle occupant and to recognize the speech statements contained therein.
  • the speech recognition unit 24 is designed to accept negative or negative from positive or approving utterances
  • the reactions of the vehicle occupant obtained in this way are combined in the reaction recognition unit 26 to form a resulting recognized user response.
  • acoustic vocalizations of the vehicle occupant which have been recorded and interpreted with the speech recognition unit 24, are combined with the results of the facial expression recognition 22, here specifically the result of lip reading, to form a resultant recognized response by the vehicle occupant.
  • the resulting recognized reaction of the vehicle occupant is fed to the machine learning component 20.
  • the course of the evaluation and classification of multimedia content or individual multimedia pieces is outlined below using the flow chart according to FIG. 2.
  • a multimedia piece from a source here, for example, a piece of music, which is obtained from a received radio signal by means of the radio receiver, that is to say the first source 11, is reproduced via the reproduction unit 13 and thus transmitted to the vehicle. Inmates issued.
  • Parameters or descriptors of the multimedia piece currently being reproduced which are also obtained from the received broadcast signal, such as the title and interpreter of the multimedia piece, along with the genre of the multimedia piece, are transmitted to the machine learning component 20 for machine processing (step 120).
  • the vehicle occupant is observed during playback of the multimedia piece (step 130).
  • the video signal of the video camera capturing the vehicle interior is evaluated, and facial expressions, possibly utterances recognized by lip reading, a pose or pose change or a gesture by the vehicle occupant are recorded.
  • the microphone signal of the microphone arranged in the vehicle interior is based on the vehicle occupant's utterances, in particular on
  • the microphone signal is preferably correlated with the audio signal output to the playback unit 13, so that its portion is calculated out of the microphone signal and thus it is easier to identify the vehicle occupant's utterances.
  • the operator interface 21 is also monitored for possible operator access by the vehicle occupant.
  • the result of the observation of the vehicle occupant is fed to the machine learning component 20 as the presumed reaction to the currently reproduced multimedia piece (step 140).
  • the machine learning component 20 learns on the basis of the information supplied to it, here the information about the multimedia piece currently being played, and the observed reaction of the vehicle occupant to it, including possible operator access by the vehicle occupant via the operating interface 21 by means of a machine learning Algorithm one or more user preferences of the vehicle occupant with a view of the multimedia piece currently being played (step 150).
  • Operator accesses to reduce a playback volume, change a signal source or switch to a radio station, abort playback of media-reproduced multimedia items or skip multimedia items contained in a playlist and the like can be expressed by the vehicle occupant's opinion on one currently being reproduced Multimedia piece or something general multimedia content can be interpreted. For example, if the vehicle occupant repeatedly reduces the playback volume during the playback of a particular piece of music or changes the radio station or the signal source, the machine learning algorithm will assign a low rating to this piece of music.
  • the algorithm will assign a high rating or user preference to this piece of music and subsequently include it in a playlist or list of preferred pieces of music, for example and choose more in the future for playback than other pieces of music and especially as with a lower or lower rating.
  • the evaluation and classification can be further refined.
  • the vehicle occupants' expression of the vehicle occupancy sensors and interpreting the machine learning algorithm can be passed on, for example, to advertising agencies, statistical databases or a vehicle manufacturer (OEM) regarding a currently reproduced multimedia content.
  • OEM vehicle manufacturer
  • the machine learning algorithm interprets this action as the vehicle occupant's interest in the advertising contribution .
  • the multimedia system can provide more information via this concert via a communication link from the Internet and make this available to the driver on the infotainment system or his mobile phone connected to the car via Bluetooth.
  • the vehicle occupant could also have increased the playback volume by, for example
  • the machine learning components 20 or the one preferably engages therein
  • the result of the machine learning of user preferences is then written into the user preference memory 25 as a new or updated user preference (step 160).
  • the controller 15 accesses the for further multimedia piece reproductions
  • User preference memory 25 selects a multimedia piece to be played back according to the present user preferences for the vehicle occupant (step 170). The process thus begins again in step 110.
  • step 180 If, on the other hand, it is determined in step 180 that the current vehicle occupant does not correspond to that with which the method has been carried out so far, an existing second profile for the recognized second vehicle occupant is selected in the user preference memory 25 (step 190) and the process starts again with this second user profile in step 110. If a second user profile does not yet exist in the user preference memory 25, this is created there again.
  • the identification of the vehicle occupant or the identification of the second vehicle occupant can take place by means of a manual operating input via the operating interface 21. In addition, this can also be carried out automatically by means of video-based facial expression or facial recognition 22.

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

The proposal relates to a method for controlling a multimedia device configured for operation in a vehicle, wherein the multimedia device is configured to output a multimedia item via a reproduction device in the vehicle for presentation to a vehicle occupant, wherein reactions of the vehicle occupant are captured by sensor, wherein parameters of an output multimedia item and the captured reactions of the vehicle occupant, which reactions have a temporal correlation with the output of the multimedia item, are subjected to automatic processing, comprising a machine-learning method, wherein the automatic processing results in a rating for the multimedia item in consideration of preferences of the vehicle occupant, and wherein the rating of the multimedia item is used to control chronologically successive outputs of multimedia items, and a computer program and an apparatus therefor.

Description

Beschreibung  description
Titel title
Verfahren zur Steuerung einer Multimedia- Einrichtung sowie Computerprogramm und Einrichtung dazu  Method for controlling a multimedia device and computer program and device therefor
Die Erfindung betrifft ein Verfahren zur Steuerung einer Multimedia- Einrichtung sowie ein Computerprogramm und eine Einrichtung zur Durchführung des Verfahrens gemäß den unabhängigen Patentansprüchen. The invention relates to a method for controlling a multimedia device and a computer program and a device for performing the method according to the independent claims.
In der DE 102013218291 Al wird ein Verfahren zu automatischen Lautstärkesteuerung für Lieblingsmusikstücke bei der Wiedergabe beschrieben. Die dort beschriebene Lösung bezieht sich allgemein auf Fahrzeug-Audiosysteme. DE 102013218291 A1 describes a method for automatic volume control for favorite pieces of music during playback. The solution described there relates generally to vehicle audio systems.
Weiterhin sind, beispielsweise aus DE 102016001194 Al auch Kamerasysteme bekannt, die einen Fahrzeug-Innenraum erfassen und aus den erfassten Bildern bzw. Video-Signalen beispielsweise mittels Gesichtserkennungs-Software einen Fahrzeugführer erkennen und identifizieren können. Dies kann beispielsweise dazu genutzt werden, um Fahrzeugeinstellungen an den Fahrzeugführer auf Grundlage von gespeicherten Daten an Vorlieben des Fahrzeugführers anzupassen. Furthermore, for example from DE 102016001194 A1, camera systems are also known which detect a vehicle interior and can recognize and identify a vehicle driver from the recorded images or video signals, for example by means of face recognition software. This can be used, for example, to adapt vehicle settings to the vehicle driver based on stored data to the preferences of the vehicle driver.
Die EP 2857276 A2 beschreibt ein System, welches eine Musikwidergabe in einem Fahrzeug in Reaktion auf ein erfasstes Verhalten des Fahrzeugführers, welches für seine Stimmung repräsentativ ist, anpasst. Wird beispielsweise eine instabile Körperhaltung des Fahrzeugführers festgestellt, woraus auf eine negative Stimmung des Fahrzeugführers geschlossen werden kann, so kann die Musikwiedergabe beispielsweise zur Herstellung einer ruhigeren Umgebung angepasst werden, um damit die Stimmung des Fahrzeugführers positiv zu beeinflussen. Schließlich ist bekannt, dass bei heutigen Multimediasystemen sogenannte Playlisten angelegt werden können, in denen von einem oder von mehreren Benutzern jeweils bevorzugte Multimedia-Stücke, also Musikstücke, Video- Filme oder andere Inhalte gespeichert werden können, so dass diese nach Auswahl des Benutzers für diesen passend abgerufen bzw. die entsprechenden, von dem jeweiligen Benutzer bevorzugten Inhalte wiedergegeben werden können. EP 2857276 A2 describes a system which adjusts a music playback in a vehicle in response to a detected behavior of the vehicle driver which is representative of his mood. If, for example, an unstable posture of the vehicle driver is determined, from which it can be concluded that the vehicle driver is in a negative mood, the music playback can be adapted, for example, to produce a quieter environment in order to have a positive influence on the driver's mood. Finally, it is known that so-called playlists can be created in today's multimedia systems, in which preferred multimedia pieces, that is to say music pieces, video films or other content, can be stored by one or more users, so that these can be selected by the user can be accessed appropriately or the corresponding content preferred by the respective user can be reproduced.
Vorteile der Erfindung Advantages of the invention
Die Erfindung mit den Merkmalen der unabhängigen Patentansprüche hat den Vorteil, dass Präferenzen eines Fahrzeugführers hinsichtlich von einer Multimedia- Einrichtung wiedergegebener Multimedia-Stücke automatisch erfasst werden und zur Steuerung nachfolgender Widergaben von Multimedia-Stücken genutzt werden. Die Erfindung trägt somit dazu bei, die Ausgabe von Multimedia-Stücken an Vorlieben des Benutzers anzupassen. The invention with the features of the independent patent claims has the advantage that a driver's preferences with regard to multimedia pieces reproduced by a multimedia device are automatically recorded and used to control subsequent playback of multimedia pieces. The invention thus helps to adapt the output of multimedia pieces to the preferences of the user.
Unter Multimedia-Stück wird dabei eine Einheit eines in Abschnitte unterteilbaren Multimedia-Inhalts verstanden. Ein Multimedia-Stück kann beispielsweise ein Musikstück, ein Video- Film, eine Werbebeitrag, eine Reportage, Nachrichten, oder ähnliches sein. A multimedia piece is understood to mean a unit of a multimedia content that can be divided into sections. A multimedia piece can be, for example, a piece of music, a video film, an advertisement, a report, news, or the like.
Dazu wird ein Verfahren zur Steuerung einer Multimedia-Einrichtung, welche zum Betrieb in einem Fahrzeug eingerichtet ist, vorgeschlagen, wobei die Multimedia- Einrichtung eingerichtet ist, ein Multimedia-Stück über eine Wiedergabe- Einrichtung im Fahrzeug zur Präsentation an einen Fahrzeug-Insassen auszugeben, wobei For this purpose, a method for controlling a multimedia device, which is set up for operation in a vehicle, is proposed, the multimedia device being set up to output a multimedia piece via a playback device in the vehicle for presentation to a vehicle occupant, in which
Reaktionen des Fahrzeuginsassen sensorisch erfasst werden, wobei die Parameter eines ausgegebenen Multimedia-Stücks und die mit der Ausgabe des Multimedia- Stücks zeitlich korrelierenden, erfassten Reaktionen des Fahrzeug-Insassen einer maschinellen Verarbeitung, umfassend ein Maschinen-Lern-Verfahren, unterzogen werden, wobei die maschinelle Verarbeitung eine Bewertung des Multimedia-Stücks hinsichtlich Präferenzen des Fahrzeuginsassen ergibt, und wobei die Bewertung des Multimedia-Stücks zur Steuerung zeitlich nachfolgender Ausgaben von Multimedia- Stücken verwendet wird und/oder an eine bezüglich der Multimedia-Einrichtung externe Einrichtung über eine Kommunikationsschnittstelle übermittelt wird. Responses of the vehicle occupant are sensed, the parameters of an output multimedia piece and the responses of the vehicle occupant that correlate in time with the output of the multimedia piece being subjected to machine processing, including a machine learning method, the machine processing results in an evaluation of the multimedia piece with regard to preferences of the vehicle occupant, and the evaluation of the multimedia piece for controlling temporally subsequent outputs of multimedia Pieces is used and / or is transmitted to a device external to the multimedia device via a communication interface.
Die externe Einrichtung kann dabei ein Rundfunksender sein, von dem das Multimedia- Stück ausgestrahlt worden ist oder eine Werbeagentur oder andere an den Vorlieben des Fahrzeuginsassen interessierte Stellen. Dabei werden selbstverständlich The external device can be a radio transmitter from which the multimedia piece has been broadcast or an advertising agency or other places interested in the preferences of the vehicle occupants. It goes without saying
Datenschutz-rechtliche Rahmenbedingungen einzuhalten. Dies bedeutet, dass ein generelles Einverständnis des Fahrzeug-Insassen mit Weitergabe der erfassten Vorlieben vorab eingeholt wird, wie dies etwa auch bei heutigen Internet-Seiten üblich ist. Comply with the legal data protection framework. This means that a general consent of the vehicle occupant is obtained in advance with the transfer of the recorded preferences, as is also the case with today's Internet pages.
Mit sensorischer Erfassung von Reaktionen des Fahrzeug-Insassen ist gemeint, dass Sensoren vorhanden sind, welche zur Erfassung des Fahrzeug-Innenraums ausgelegt sind und, dass aus den Signalen dieser Sensoren mittels Erkennungssoftware Reaktionen des Fahrzeug-Insassen erkannt werden. Beispielsweise kann zur Erfassung des Fahrzeug-Innenraums eine Kamera vorgesehen sein. Die von der Kamera bereitgestellten Video-Signale enthalten Video-Bilder des Fahrzeug-Insassen, welche mittels Bilderkennungs-Algorithmen ausgewertet werden. Geeignete Bilderkennungs-Algorithmen sind beispielsweise eine Gesichtserkennung, Mimik- Erkennung, Blickrichtungserkennung, Emotionen- Erkennung (z.B. FACS https://de.wikipedia.org/wiki/Facial_Action_Coding_System), eine Lippenlese-By sensory detection of reactions of the vehicle occupant is meant that sensors are available which are designed to detect the vehicle interior and that reactions of the vehicle occupant are recognized from the signals of these sensors by means of recognition software. For example, a camera can be provided for capturing the vehicle interior. The video signals provided by the camera contain video images of the vehicle occupant, which are evaluated using image recognition algorithms. Suitable image recognition algorithms are, for example, face recognition, facial expression recognition, direction of view recognition, emotion recognition (e.g. FACS https://de.wikipedia.org/wiki/Facial_Action_Coding_System), lip reading
Erkennung, eine Gestenerkennung, Körperposenerkennung, oder dergleichen mehr. Das Ergebnis der Mimik- Erkennung, des Lippenlesens oder der Gestenerkennung ist die erkannte Reaktion des Fahrzeug-Insassen. In bevorzugter Ausgestaltung können verschiedene Ansätze zur Reaktionserkennung zu einer gemeinsamen erkannten Reaktion kombiniert werden, so beispielsweise Gestenerkennung und Lippenlesen oder Lippenlesen und Mikrofon-Signal-basierte Spracherkennung. Recognition, gesture recognition, body pose recognition, or the like. The result of facial expression recognition, lip reading or gesture recognition is the recognized reaction of the vehicle occupant. In a preferred embodiment, different approaches to reaction recognition can be combined to form a common recognized reaction, for example gesture recognition and lip reading or lip reading and microphone signal-based speech recognition.
Parameter des Multimedia-Stücks können insbesondere Deskriptoren des Multimedia- Stücks sein oder umfassen. Im Falle eines Musikstücks bzw. Musiktitels, welcher über einen Rundfunkempfänger der Multimedia-Einrichtung von einem Rundfunksender empfangen wird, können die Deskriptoren beispielsweise über das Radio-Daten-Signal (RDS) empfangene Informationen über Titel und Interpret des Musiktitels umfassen. Diese ermöglichen eine Identifizierung des Musikstücks oder Musiktitels. In ähnlicher Weise können im Falle von einem Signalspeicher bzw. Datenträger wiedergegebene Multimedia-Stücke anhand zugehöriger in dem Signalspeicher bzw. auf dem Datenträger gespeicherter Deskriptoren, etwa Filmtitel oder im Falle einer Videofilm- Serie Serientitel und Folgen-Nummer und/oder Folgen-Titel, identifiziert werden. Parameter können aber auch etwa ein Genre eines Musikstücks, etwas Popmusik, Rockmusik, klassische Musik, einen Rhythmus oder eine Geschwindigkeit eines Musikstücks etwa in Schläge pro Minute (beats per minute), umfassen. In diesem Fall kann eine durch das Verfahren vorgenommene Bewertung auch als Bewertung betreffend eine Multimedia-Stück-Gattung, wie Pop- oder klassische Musik etc. ausgelegt werden. Parameters of the multimedia piece can in particular be or include descriptors of the multimedia piece. In the case of a piece of music or a music title which is received by a radio transmitter via a radio receiver of the multimedia device, the descriptors can include information received via the radio data signal (RDS) about the title and artist of the music title. These enable identification of the piece of music or music title. More like that In the case of multimedia signals reproduced in a signal memory or data carrier, the descriptors stored in the signal memory or on the data carrier, for example film titles or, in the case of a video film series, series titles and sequence numbers and / or sequence titles can be identified . However, parameters can also include a genre of a piece of music, some pop music, rock music, classical music, a rhythm or a speed of a piece of music, for example in beats per minute. In this case, an assessment made by the method can also be interpreted as an assessment relating to a genre of multimedia pieces, such as pop or classical music, etc.
Die Bewertung der Multimedia-Stücke erfolgt dabei mittels einer maschinellen Verarbeitung, welche ein an sich bekanntes Maschinen-Lern-Verfahren (machine learning) umfasst. Maschinen-Lern-Verfahren sind beispielsweise aus dem Bereich der Spracherkennungs- und Diktiersoftware bekannt. Dabei werden Eingangssignale, etwa über Mikrofon aufgenommene Sprachsignale, erfasst, mit gegebenenfalls vorhandenem Vorwissen, im Fall der Spracherkennung etwa einem Lexikon, abgeglichen und daraus eine Erkennung von über das Mikrofon aufgenommenen Sprachesignalen verbessert bzw. erweitert, wobei auch das vorhandene Lexikon um neu erkannte Worte erweitert werden kann. Im Fall der vorliegenden Erfindung dient die maschinelle Verarbeitung dazu, Nutzerpräferenzen hier des Fahrzeug-Insassen hinsichtlich bestimmter Multimedia-Stücke oder daraus resultierend allgemeiner bestimmter Multimedia-Inhalte selbständig anhand seiner, also der Reaktionen des Fahrzeug-Insassen zu erlernen bzw. zu klassifizieren. Anhand dieser erlernten Vorlieben werden nachfolgend Multimedia-Stücke oder -Inhalte gezielter für eine Ausgabe und Wiedergabe an den Fahrzeug-Insassen ausgewählt und bereitgestellt. Dies kann beispielsweise eine Priorisierung von bestimmten Musik-Stücken gegenüber anderen Musik- Stücken, eine Priorisierung einer Musikart, wie generell von klassischer Musik gegenüber moderner Pop- oder Rockmusik, eine Priorisierung eines Genre, wie von Reportagen gegenüber Nachrichten gegenüber Musikwiedergabe oder auch eine Priorisierung einer bestimmten zeitweise und/oder ortsabhängig über Rundfunk empfangbaren Rundfunksendung gegenüber einer Fernsehsendung, diese wiederum gegenüber gespeicherten Musik-Stücken bedeuten. Vorzugsweise kann diese Anpassung bzw. Personalisierung auch Personen-bezogen erfolgen. Dazu ist zusätzlich eine Identifizierung des Fahrzeug-Insassen erforderlich, was beispielsweise mittels an sich bekannter Gesichtserkennung in im Fahrzeug-Innenraum aufgenommenen Bild- oder Video-Signalen umsetzbar ist. The multimedia pieces are evaluated by means of machine processing, which comprises a machine learning method known per se (machine learning). Machine learning methods are known, for example, from the field of speech recognition and dictation software. Input signals, such as voice signals recorded via a microphone, are recorded, compared with any previous knowledge, in the case of speech recognition, for example a lexicon, and a recognition of speech signals recorded via the microphone is improved or expanded therefrom, the existing lexicon also having newly recognized words can be expanded. In the case of the present invention, machine processing serves to independently learn or classify user preferences here of the vehicle occupant with regard to certain multimedia pieces or, as a result, more general specific multimedia content based on his, that is, the reactions of the vehicle occupant. Based on these learned preferences, multimedia pieces or contents are subsequently selected and made available more specifically for output and playback to the vehicle occupants. This can be, for example, a prioritization of certain pieces of music over other pieces of music, a prioritization of a type of music, such as generally from classical music over modern pop or rock music, a prioritization of a genre, such as reports over news over music playback, or also a prioritization of one certain radio broadcasts that are temporarily and / or location-dependent receivable by radio compared to a television broadcast, which in turn mean compared to stored pieces of music. This adaptation or personalization can preferably also be person-related. Is to In addition, identification of the vehicle occupant is required, which can be implemented, for example, by means of known facial recognition in image or video signals recorded in the vehicle interior.
Vorteilhaft werden Video-Signale eines Fahrzeug-Innenraums aufgenommen und Reaktionen des Fahrzeug-Insassen aus den Videosignalen abgeleitet. Die sensorische Erfassung der Reaktionen des Fahrzeuginsassen auf ein aktuell wiedergegebenes Multimedia-Stück erfolgt dabei mit einer Video- Kamera, welche dazu eingerichtet ist, den Fahrzeug-Innenraum oder Teile des Fahrzeug-Innenraums zu erfassen. Solche Kamera-basierten Systeme werden in Fahrzeugen bereits im Zusammenhang mit einer Fahrerbeobachtung beispielsweise zur Müdigkeitserkennung und gegebenenfalls Auslösung von Warnsignalen genutzt. Video signals of a vehicle interior are advantageously recorded and reactions of the vehicle occupant are derived from the video signals. The sensory detection of the reactions of the vehicle occupants to a currently reproduced multimedia piece takes place with a video camera, which is set up to capture the vehicle interior or parts of the vehicle interior. Such camera-based systems are already used in vehicles in connection with driver observation, for example for fatigue detection and possibly triggering warning signals.
Vorteilhaft werden aus den Video-Signalen Posen oder Posen-Änderungen des Fahrzeug-Insassen ermittelt und die Posen- oder Posen-Änderungen zur Bewertung des ausgegebenen Multimedia-Stücks interpretiert. Unter Posen werden dabei eine Körperhaltung oder die Haltung eines Körperteils, etwa einer Hand, eines Armes oder des Kopfes des Fahrzeug-Insassen verstanden. Eine Posen-Änderung meint eine Bewegung des Körpers oder eines Körperteils, etwas eine Hand- oder Armbewegung oder eine Kopfbewegung wie etwas ein Nicken oder Kopf- Schütte In des Fahrzeug- Insassen. Dazu wird ein an sich bekanntes Muster-gestütztes Bild- oder Video- Auswertungs-Verfahren genutzt. Das Interpretieren umfasst beispielsweise das Auslegen einer erfassten Pose oder Posen-Änderung, etwa eines Kopf- Schütte Ins als negative, eines Kopf-Nickens als positive Bewertung eines aktuelle wiedergegebenen Multimedia-Stücks. Eine Körperposenschätzung mittels Algorithmen wie beispielsweise „convolutional pose machines“ kann unter Anderem prüfen, ob die Fahrzeuginsassen mittanzen oder anderweitig auf das Multimedia-Stück reagieren. Dies erfolgt durch das Korrelieren von Parametern wie„Beats per Minute“ von einem aktuell Poses or changes in poses of the vehicle occupant are advantageously determined from the video signals and the changes in poses or poses are interpreted in order to evaluate the multimedia piece that is output. Poses are understood to mean a posture or the posture of a part of the body, such as a hand, an arm or the head of the vehicle occupant. A change in poses means a movement of the body or a part of the body, something a hand or arm movement or a head movement like something a nod or head-shake in the vehicle occupant. For this purpose, a known pattern-based image or video evaluation method is used. The interpretation includes, for example, the interpretation of a detected pose or pose change, for example a head shake-in as a negative, a head nod as a positive evaluation of a currently played multimedia piece. A body posture estimation using algorithms such as "convolutional pose machines" can check, among other things, whether the vehicle occupants are dancing or otherwise reacting to the multimedia piece. This is done by correlating parameters such as "beats per minute" from one current
wiedergegebenen Multimedia-Stück mit der Bewegung des erkannten Skelettmodells des Fahrzeug-Insassen oder eines Körperteils des Fahrzeug-Insassen. reproduced multimedia piece with the movement of the recognized skeleton model of the vehicle occupant or a body part of the vehicle occupant.
Vorteilhaft wird aus den Video-Signalen alternativ oder ergänzend eine Mimik des Fahrzeug-Insassen ermittelt und die ermittelte Mimik zur Bewertung des As an alternative or in addition, a facial expression of the vehicle occupant is advantageously determined from the video signals and the determined facial expression for evaluating the
ausgegebenen Multimedia-Stücks interpretiert. Durch beispielsweise das Facial Action Coding System (FACS) von P. Ekman und W. Friesen können mindestens 6 output multimedia piece interpreted. For example through the facial action Coding System (FACS) by P. Ekman and W. Friesen can have at least 6
Basisemotionen wie Angst, Wut, Ekel, Überraschung, Freude, und Trauer erkannt und klassifiziert werden. So kann beispielsweise die Zuordnung von Verformungen der Gesichtspartien zu den Action Units durch Support Vektor Regressoren (SVR), welche auf Basis einer manuell annotierten Datenbank trainiert sein können. Die verwendeten Merkmale können beispielsweise aus den 3D Positionen der Gesichtslandmarken extrahiert werden. So kann das System, dem aktuellen Multimedia-Stücks eine Emotion zuordnen. Wird zum Beispiel die Emotion Freude erkannt, wenn ein bestimmtes Lied im Radio gespielt wird, erhöht der Lernalgorithmus die Basic emotions such as fear, anger, disgust, surprise, joy and grief can be recognized and classified. For example, support vector regressors (SVR), which can be trained on the basis of a manually annotated database, can be used to assign deformations of the facial parts to the action units. The features used can be extracted, for example, from the 3D positions of the facial landmarks. In this way, the system can assign an emotion to the current multimedia piece. For example, if the emotion of joy is recognized when a certain song is played on the radio, the learning algorithm increases it
Wahrscheinlichkeit dafür, dass es sich um ein Lieblingslied handelt. Probability that it is a favorite song.
Vorteilhaft werden alternativ oder ergänzend aus den Video-Signalen As an alternative or in addition, the video signals are advantageous
Lippenbewegungen des Fahrzeug-Insassen ermittelt werden und die ermittelten Lippenbewegungen zur Bewertung des ausgegebenen Multimedia-Stücks Lip movements of the vehicle occupant are determined and the determined lip movements for evaluating the multimedia piece output
ausgewertet. Hier kann ein video-basierter Lippenlesealgorithmus verwendet werden, um daraus vom Fahrzeug-Insassen Gesprochenes zu erkennen und daraus eine Bewertung abzuleiten. Auch kann beispielsweise ein Mitsingen eines aktuell wiedergegebenen Musikstückes erkannt und als Zustimmung bzw. positive Bewertung des Musikstückes interpretiert werden. Zur Erkennung eines Mitsingens kann dabei vorteilhaft die in der Multimedia- Einrichtung vorliegende Kenntnis über das aktuell wiedergegebene Musikstück genutzt werden, indem beispielsweise die Ergebnisse des Lippenlesens mit einem bekannten Musikstück-Text abgeglichen werden. evaluated. Here, a video-based lip reading algorithm can be used to recognize what the vehicle occupant has spoken and to derive an evaluation. Singing along of a currently played piece of music can also be recognized, for example, and interpreted as approval or positive evaluation of the piece of music. In order to recognize singing along, the knowledge of the piece of music currently being played back in the multimedia device can advantageously be used, for example by comparing the results of lip reading with a known piece of music text.
Weiterhin können vorteilhaft alternativ oder ergänzend auch akustische Signale im Fahrzeug-Innenraum erfasst und daraus Lautäußerungen des Fahrzeug-Insassen als Reaktionen des Fahrzeug-Insassen erkannt werden, wobei die Lautäußerungen zur Bewertung des ausgegebenen Multimedia-Stücks interpretiert werden. Furthermore, alternatively or additionally, acoustic signals in the vehicle interior can also advantageously be detected and vocalizations of the vehicle occupant can be recognized therefrom as reactions of the vehicle occupants, the vocalizations being interpreted for evaluating the multimedia piece that is output.
Lautäußerungen können beispielsweise gesprochene Sprache sein. Diese können mit einem Spracherkennungsverfahren interpretiert werden. Abfällige Äußerungen, die hier nicht wiedergegeben werden sollen, können dabei als negative Bewertung des  Vocalizations can be spoken language, for example. These can be interpreted using a speech recognition process. Disagreeable statements that should not be reproduced here can be considered a negative evaluation of the
Multimedia-Stücks ausgelegt werden, ein Mitsingen etwa als positive Bewertung. Die Lautäußerungen können dabei mit einem im Fahrzeug-Innenraum angeordneten Mikrofon erfasst werden. Dieses kann ebenso wie eine Spracherkennung Multimedia pieces are interpreted, a sing along as a positive evaluation. The utterances can be recorded using a microphone arranged in the vehicle interior. This can be done just like voice recognition
beispielsweise für eine ohnehin vorgesehenen Sprachsteuerung der Multimedia- Einrichtung vorgesehen sein. Im Falle eines akustisch oder auch akustisch for example for an already provided voice control of the multimedia Means be provided. In the case of an acoustic or acoustic
wiedergegebenen Multimedia-Stücks, wie eines Musikstücks oder eines Films mit Ton liegt in der Multimedia-Einrichtung die Kenntnis über die ausgegebenen Tonsignale vor, so dass eine akustische Lautäußerung des Benutzers mit bekannten Algorithmen aus der Summe der im Fahrzeug-Innenraum vorliegenden akustischen Signale bzw. Geräusche isoliert werden kann. reproduced multimedia piece, such as a piece of music or a film with sound, the multimedia device has knowledge of the sound signals output, so that the user is acoustically uttered using known algorithms from the sum of the acoustic signals or Noise can be isolated.
Alternativ oder ergänzend können auch Bedienzugriffe des Fahrzeug-Insassen auf die Multimedia- Einrichtung erfasst werden und daraus eine Bewertung des ausgegebenen Multimedia-Stücks abgeleitet werden. Bedienzugriffe sind beispielsweise die manuelle Betätigung von Schaltern oder anderen Bedienelementen. Bedienzugriffe umfassen auch eine Gestensteuerung oder eine Sprachsteuerung wie vorstehend angegeben.As an alternative or in addition, operator access by the vehicle occupant to the multimedia device can also be recorded and an evaluation of the multimedia piece output can be derived therefrom. Operating accesses are, for example, the manual actuation of switches or other operating elements. Operator access also includes gesture control or voice control as stated above.
Ein Bedienzugriff, der beispielsweise dazu dient, ein aktuell von der Multimedia- Einrichtung wiedergegebenes Musikstück zu überspringen oder seine An operating access, which is used, for example, to skip a piece of music currently being played by the multimedia device or its
Wiedergabelautstärke leiser zu stellen, kann als negative Bewertung ausgelegt werden. Ähnlich kann auch ein manueller Wechsel von einem derzeit empfangenen Rundfunkprogramm auf ein anderes mittels der Multimedia- Einrichtung empfangbares Rundfunkprogramm oder eine andere Programm- bzw. Signalquelle, wie von Decreasing the playback volume can be interpreted as a negative rating. Similarly, a manual change from a currently received radio program to another radio program receivable by means of the multimedia device or another program or signal source, such as from
Rundfunkempfang auf Audio- oder Video-Speicher, in dem Multimedia-Inhalte gespeichert sind, als negative Bewertung aktuell gehörter Rundfunkbeiträge, wie Nachrichten oder Reportage oder dergleichen als Multimedia-Stücke, gewertet werden, während die von der neu eingestellten Programm- oder Signalquelle statt dessen wiedergegebenen Inhalte positiv bewertet werden. Broadcast reception on audio or video memory, in which multimedia content is stored, is rated as a negative evaluation of currently heard radio programs, such as news or reports or the like as multimedia pieces, while those from the newly set program or signal source instead reproduced content are rated positively.
Vorteilhaft sind auch eine Einrichtung, welche dazu ausgebildet ist, das vorstehend skizzierte Verfahren auszuführen sowie ein Computerprogramm umfassend A device which is designed to carry out the method outlined above and which comprises a computer program are also advantageous
Programmcode, welches dazu eingerichtet ist, bei Abarbeitung auf einem Computer oder einer solchen Einrichtung das Verfahren durchzuführen. Die Einrichtung kann dabei die Multimedia-Einrichtung selbst sein oder umfassen. Es kann sich aber auch um eine von der Multimedia- Einrichtung abgesetzte Steuereinrichtung handeln, welche mit der Multimedia-Einrichtung zur Datenübertragung, insbesondere hier zur Program code which is set up to carry out the method when processed on a computer or such a device. The device can be or include the multimedia device itself. However, it can also be a control device remote from the multimedia device, which is used with the multimedia device for data transmission, in particular here
Übertragung von Steuersignalen zur Steuerung der Multimedia- Einrichtung verbunden ist. Insbesondere kann es sich dabei beispielsweise auch um ein sogenanntes Transmission of control signals for controlling the multimedia device is connected. In particular, this can also be a so-called
Handheld-Device, wie ein Smartphone oder anderen geeignetes Gerät handeln, welches, beispielsweise in eine Haltevorrichtung an der Windschutzscheibe oder einer Mittelkonsole im Fahrzeug eingesetzt und betrieben werden kann. Handheld device, such as a smartphone or other suitable device, which, for example, can be used and operated in a holding device on the windshield or a center console in the vehicle.
Das Computerprogramm kann vorteilhaft dazu eingerichtet sein, auf der Multimedia- Einrichtung abgearbeitet zu werden. Das Computerprogramm kann auch dazu eingerichtet sein, auf der genannten, von der Multimedia- Einrichtung abgesetzten Steuereinrichtung abgearbeitet zu werden. The computer program can advantageously be set up to be processed on the multimedia device. The computer program can also be set up to be processed on the control device mentioned, which is remote from the multimedia device.
Zeichnungen drawings
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden nachfolgend näher erläutert. Gleiche Bezugszeichen bezeichnen dabei gleiche oder gleichwirkende Elemente. Embodiments of the invention are shown in the figures and are explained in more detail below. The same reference numerals designate the same or equivalent elements.
Es zeigen Show it
Figur 1 eine Blockschaltbild einer vorteilhaften Ausführungsform einer Vorrichtung zur Durchführung des Erfindungsgemäßen Verfahrens, FIG. 1 shows a block diagram of an advantageous embodiment of a device for carrying out the method according to the invention,
Figur 2 einen Ablaufplan einer vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens. Figure 2 is a flowchart of an advantageous embodiment of the method according to the invention.
Beschreibung der Ausführungsbeispiele Description of the embodiments
In Figur 1 ist ein Blockschaltbild einer vorteilhaften Ausführungsform einer Vorrichtung, hier in Form der Multimedia-Einrichtung 1, zur Durchführung des erfindungsgemäßen Verfahrens dargestellt. Die Multimedia-Einrichtung 1 ist zum Betrieb in einem FIG. 1 shows a block diagram of an advantageous embodiment of a device, here in the form of the multimedia device 1, for carrying out the method according to the invention. The multimedia device 1 is for operation in one
Fahrzeug, insbesondere einem Kraftfahrzeug vorgesehen und eingerichtet. Vehicle, in particular a motor vehicle provided and set up.
Die Multimedia- Einrichtung umfasst eine Steuerung 15, die in Form eines Prozessors mit zugehörigem Betriebsprogramm, welches auf dem Prozessor abgearbeitet wird, ausgeführt. An die Steuerung 15 sind im vorliegenden Fall beispielhaft zwei Quellen 11 und 12 angeschlossen. Bei der ersten Quelle 11 handelt es sich beispielsweise um einen Rundfunkempfänger, der dazu ausgebildet ist, auf eine Rundfunkfrequenz abgestimmt zu werden, das darüber übertragene Rundfunksignal zu demodulieren und die enthaltenen Informationen zur Verfügung zu stellen. Die zur Verfügung gestellten Informationen umfassen den Rundfunkprogramm-Inhalt, also insbesondere The multimedia device comprises a controller 15, which is executed in the form of a processor with an associated operating program which is processed on the processor. In the present case, two sources 11 and 12 are connected to the controller 15 as an example. The first source 11 is, for example, a radio receiver which is designed to be tuned to a radio frequency, to demodulate the radio signal transmitted via it and to make the information contained available. The information provided includes the content of the radio program, in particular
Audiosignale, wie Musikstücke, Reportagen, Nachrichten oder andere Hörfunk- Beiträge. Die zur Verfügung gestellten Informationen umfassen daneben auch Daten, wie Daten des Radio-Daten-Signals (RDS) umfassend Rundfunkprogramm-Kennung eines aktuell empfangenen Rundfunkprogramms, Informationen zu aktuell Audio signals, such as pieces of music, reports, news or other radio programs. The information provided also includes data, such as data of the radio data signal (RDS) comprising radio program identifier of a currently received radio program, information about current
übertragenen Inhalten wie Titel und Interpret eines aktuell als Teil des Hörfunk- Programms übertragenen Musikstücks, dazu etwa das Genre des transferred content such as title and artist of a piece of music currently being broadcast as part of the radio program, including the genre of
Rundfunkprogramms, vorliegend beispielsweise eine Kennung für eine Sendung mit überwiegend klassischer Musik. Vorteilhaft kann hier auch das Internet als weitere Quelle vorgesehen sein, die dazu dient der Maschinen-Lern-Komponente 20 mehr Informationen über das Multimedia-Stück zur Verfügung zu stellen. Broadcasting program, in the present case, for example, an identifier for a program with predominantly classical music. The Internet can advantageously also be provided here as a further source, which serves to provide the machine learning component 20 with more information about the multimedia piece.
Bei der zweiten Quelle 12 handelt es sich beispielsweise über eine Abspieleinrichtung für Massenspeicher, etwa für Chipkarten oder Festplatten-Speicher oder dergleichen. Neben den Multimedia-Inhalten wie Video-Filmen oder gespeicherten Musik-Stücken stellt die zweite Quelle auch Deskriptoren für die enthaltenen sowie gegebenenfalls gerade wiedergegebene Multimedia-Stücke zur Verfügung, wie etwas Film-Titel, bei Serien zusätzliche eine Folgennummer oder einen Folgentitel, eine Szenennummer. Weitere Deskriptoren betreffen beispielsweise die Art der zur Verfügung gestellten Multimedia-Stücke bzw. -Inhalte, etwa Musik, Videofilm, zusätzlich etwa das Genre der Inhalte, wie Popmusik, Rockmusik, klassische Musik bzw. Action-Film, Science- Fiction- Film, Komödie usw. The second source 12 is, for example, a playback device for mass storage, for example for chip cards or hard disk storage or the like. In addition to the multimedia content such as video films or stored pieces of music, the second source also provides descriptors for the multimedia pieces contained and, if appropriate, currently being reproduced, such as a film title, for series an additional sequence number or title, a scene number . Further descriptors relate, for example, to the type of multimedia pieces or content made available, such as music, video film, and in addition, for example, the genre of content, such as pop music, rock music, classical music or action film, science fiction film, comedy etc.
Die Steuerung 15 hat unter anderem die Aufgabe, eine der beiden Quellen 11 und 12 für die Wiedergabe auszuwählen, weiter die gewünschten Inhalte der ausgewählten Quelle auszuwählen und diese an eine Wiedergabe-Einrichtung 13 auszugeben. Die Wiedergabeeinrichtung 13 umfasst Lautsprecher und vorzugsweise ein Display, über die die von einer der beiden Quellen 11 oder 12 zur Verfügung gestellten Inhalte, also ein Multimedia-Stück beispielweise in Form eines Rundfunkbeitrags, eines Musikstücks oder eines Videofilmes an den Fahrzeug-Insassen ausgegeben werden. The controller 15 has, inter alia, the task of selecting one of the two sources 11 and 12 for playback, further selecting the desired contents of the selected source and outputting this to a playback device 13. The reproduction device 13 comprises loudspeakers and preferably a display, via which the content provided by one of the two sources 11 or 12, ie a multimedia piece, for example in the form of a radio broadcast, a piece of music or a video, is output to the vehicle occupants.
Zur Auswahl einer der beiden Quellen 11 oder 12 greift die Steuerung auf einen Nutzer- Präferenz-Speicher 25 zu, in welchem dem oder einem der aktuell im Fahrzeug identifizierten Fahrzeug-Insassen Präferenzen bezüglich wiederzugebender To select one of the two sources 11 or 12, the controller accesses a user preference memory 25, in which preferences regarding the or one of the vehicle occupants currently identified in the vehicle are to be reproduced
Multimedia-Inhalte oder Multimedia-Stücke zugeordnet sind. sind. Einem ersten im Nutzer- Präferenz-Speicher 25 repräsentierten Benutzer ist beispielsweise eine Multimedia content or multimedia pieces are assigned. are. A first user represented in the user preference memory 25 is, for example
Präferenz für Musikstücke eines bestimmten Genre, beispielsweise klassische Musik, dabei weiter eine Präferenz für Klavier-Musik der Komponisten Wolfgang Amadeus Mozart und Frederique Chopin zugeordnet. Diese Musik wird typischerweise nicht über Rundfunk 11 empfangbar sein, sondern regelmäßig aus dem Massenspeicher 12 zur Verfügung gestellt. Preference for pieces of music of a certain genre, for example classical music, with a preference for piano music by the composers Wolfgang Amadeus Mozart and Frederique Chopin assigned. This music will typically not be receivable via radio 11, but will regularly be made available from the mass storage device 12.
Einem zweiten Nutzer ist beispielsweise eine Präferenz für ein bestimmtes A second user is, for example, a preference for a certain one
Hörfunkprogramm, etwa die Sportübertragungen der ARD-Rundfunksendeanstalten, mit absteigender Priorität sodann beispielsweise Musik der Musikgruppe Queen und schließlich generell Rock-Musik zugeordnet. Radio program, such as the sports broadcasts of the ARD broadcasting stations, with decreasing priority then, for example, music assigned to the Queen music group and finally generally rock music.
Die Steuerung 15 hat nun die Aufgabe, die im Nutzer-Präferenz-Speicher 25 abgelegten Präferenzen in Abhängigkeit des erkannten Fahrzeug-Insassen nach Verfügbarkeit der Inhalte bzw. Multimedia-Stücke umzusetzen und dazu eine passende Quelle sowie die darüber zur Verfügung stehenden Inhalte bzw. Multimedia-Stücke auszuwählen und an die Wiedergabe- Einrichtung 13 zur Ausgabe weiterzuleiten. Ist beispielsweise der zweite Benutzer als Fahrzeuginsasse erkannt worden, wird derzeit jedoch keine Sportberichterstattung über Rundfunk empfangen, so wählt die Steuerung 15 gemäß den Präferenzen des zweiten Benutzers die zweiten Quelle 12 und greift dort auf die gespeicherte Musikstück-Sammlung zu, wählt daraus Musikstücke der Musikgruppe Queen und gibt diese zur Ausgabe an die Wiedergabe- Einrichtung 13 aus. The controller 15 now has the task of converting the preferences stored in the user preference memory 25 as a function of the recognized vehicle occupant according to the availability of the content or multimedia pieces, and a suitable source and the content or multimedia available therefor Select pieces and forward them to the playback device 13 for output. If, for example, the second user has been identified as a vehicle occupant, but no sports coverage is currently being received via radio, the controller 15 selects the second source 12 according to the preferences of the second user and accesses the stored music piece collection there, selects music pieces from the music group Queen and outputs this to the playback device 13 for output.
Die Bestimmung der Nutzerpräferenzen erfolgt in einer Maschinen-Lern-Komponente 20. Die umfasst wiederum einen Mikroprozessor mit einer Software, welche einen Maschinen-Lern-Algorithmus in an sich bekannter Weise implementiert. Die Maschinen-Lern-Komponente 20 ist mit einer Bedieneinrichtung 21 verbunden, welche auch mit der Steuerung 15 verbunden ist. Über die Bedieneinrichtung 21 kann der Fahrzeug-Insasse durch Betätigung eines aus einer Mehrzahl von The user preferences are determined in a machine learning component 20. This in turn comprises a microprocessor with software which implements a machine learning algorithm in a manner known per se. The machine learning component 20 is connected to an operating device 21, which is also connected to the controller 15. The vehicle occupant can operate the operating device 21 by actuating one of a plurality of
Bedienelementen eine der Quellen 11 oder 12 auswählen, ferner aus den über die ausgewählte der beiden Quellen 11 oder 12 zur Verfügung stehenden Multimedia- Inhalte bzw. Multimedia-Stücke zugreifen und diese somit zur Wiedergabe durch die Wiedergabe- Einrichtung 13 auswählen. Select control elements one of the sources 11 or 12, furthermore access from the multimedia content or multimedia pieces available via the selected one of the two sources 11 or 12 and thus select them for playback by the playback device 13.
Der Maschinen-Lern-Komponente 20 sind weiterhin seitens der Steuerung 15 The machine learning component 20 are still on the part of the controller 15
Parameter bzw. Deskriptoren zugeführt, welche die gerade zur Wiedergabe an die Wiedergabe- Einrichtung 13 geleiteten Multimedia-Stücke oder Multimedia-Inhalte kennzeichnen, also beispielsweise Titel und Interpret eines gerade gespielten Musikstücks sowie Genre des Musikstücks. Parameters or descriptors are supplied which identify the multimedia pieces or multimedia contents that are being sent to the playback device 13 for playback, that is to say, for example, the title and artist of a piece of music currently being played and the genre of the piece of music.
Schließlich sind der Maschinen-Lern-Komponente 20 Informationen einer Finally, the machine learning component 20 is information one
Reaktionserkennung- Einheit 26 zugeführt. Die Reaktionserkennung- Einheit 26 kann als separate Funktionsgruppe ausgebildet sein, sie kann aber auch in die Maschinen- Lern-Komponente 20 integriert sein. Im vorliegenden Beispiel ist sie als separate Funktionsgruppe dargestellt. Reaction detection unit 26 supplied. The reaction detection unit 26 can be designed as a separate functional group, but it can also be integrated into the machine learning component 20. In the present example it is shown as a separate function group.
Die Reaktionserkennung- Einheit 26 ist vorliegend mit einer Video-basierten Mimik- Erkennung-Einheit 22, einer Videobasierten Posen- Erkennung- Einheit 23 und einer Audiosignal-basierten Spracherkennung-Einheit 24 verbunden. In the present case, the reaction recognition unit 26 is connected to a video-based facial expression recognition unit 22, a video-based pose recognition unit 23 and an audio signal-based speech recognition unit 24.
Die Mimik-Erkennung-Einheit 22 greift auf Signale einer im Fahrzeug angeordneten Video- Kamera zu. Die Video- Kamera ist auf den Fahrzeuginnenraum ausgerichtet und dient dazu, einen Fahrzeug-Insassen, hier insbesondere den Fahrzeugführer und im Zusammenhang mit der Mimik-Erkennung insbesondere das Gesicht des Fahrzeug- Insassen zu erfassen. Die Mimik-Erkennung-Einheit 22 weist eine Mimik-Erkennung- Software auf, welche dazu ausgelegt ist, beispielsweise eine positive Stimmung des erfassten Fahrzeug-Insassen von einer negativen Stimmung zu unterscheiden. Die Mimik-Erkennung-Einheit 22 ist vorteilhaft weiter dazu ausgebildet, aus den Video signalen der Video-Kamera Lippenbewegungen des Fahrzeug-Insassen zu erkennen und daraus mitels Lippenlese-Software vom Benutzer gesprochene Worte oder mitgesungene Liedertexte zu erkennen. The facial expression recognition unit 22 accesses signals from a video camera arranged in the vehicle. The video camera is aimed at the vehicle interior and is used to capture a vehicle occupant, here in particular the vehicle driver and in connection with facial expression recognition, in particular the face of the vehicle occupant. The facial expression recognition unit 22 has facial expression recognition software which is designed to distinguish, for example, a positive mood of the detected vehicle occupant from a negative mood. The facial expression recognition unit 22 is advantageously further designed to recognize lip movements of the vehicle occupant from the video signals of the video camera and to recognize words spoken by the user or song lyrics sung by the user using lip-reading software.
Die Posen-Erkennung-Einheit 23 greift ebenfalls auf die Signale der vorgenannten Video-Kamera oder auf Signale einer oder mehrerer weiterer Video-Kameras zu, die dazu eingerichtet sind, neben dem Kopf des Fahrzeug-Insassen vorzugsweise auch weitere Körperteile, insbesondere die Hände und Arme des Fahrzeug-Insassen zu erfassen. Die Posen-Erkennung-Einheit verfügt eines Posen-Erkennung-Software, welche dazu ausgelegt ist, Posen oder Posen-Änderungen des Fahrzeug-Insassen, hier insbesondere Kopfbewegungen wie Nicken oder Kopf-Schüteln, Hand- oder Fingergesten oder ähnliche Haltungen oder Bewegungen, die als Gesten interpretiert werden können, auszuwerten und im Sinne einer positiven oder negativen Äußerung zu interpretieren. Eine zum Multimedia-Stück synchrone Hand- oder Arm-Bewegung wird dabei beispielsweise als positive bzw. zustimmende Äußerung interpretiert. The pose detection unit 23 also accesses the signals from the aforementioned video camera or signals from one or more other video cameras, which are set up to preferably not only the head of the vehicle occupant but also other parts of the body, in particular the hands and Capture arms of vehicle occupants. The pose detection unit has a pose detection software which is designed to detect poses or changes in the pose of the vehicle occupant, in particular head movements such as nodding or shaking heads, hand or finger gestures or similar postures or movements can be interpreted as gestures, evaluated and interpreted in the sense of a positive or negative expression. A hand or arm movement that is synchronous with the multimedia piece is interpreted, for example, as a positive or approving utterance.
Die Spracherkennung- Einheit 24 greift auf die Signale eines im Fahrzeug-Innenraum angeordnetes Mikrofon zu und ist dazu eingerichtet, Laut- bzw. verbale Äußerungen des Fahrzeug-Insassen aufzunehmen und die darin enthaltenen Sprachäußerungen zu erkennen. Insbesondere ist die Spracherkennung- Einheit 24 dazu ausgelegt, negative bzw. ablehnende von positiven bzw. zustimmenden Sprachäußerungen zu The speech recognition unit 24 accesses the signals of a microphone arranged in the vehicle interior and is set up to record phonetic or verbal statements by the vehicle occupant and to recognize the speech statements contained therein. In particular, the speech recognition unit 24 is designed to accept negative or negative from positive or approving utterances
unterscheiden. differentiate.
Die solchermaßen erhaltenen Reaktionen des Fahrzeug-Insassen werden in der Reaktionserkennung- Einheit 26 zu einer resultierenden erkannten Benutzer- Reaktion zusammengefasst. Beispielsweise werden akustische Lautäußerungen des Fahrzeug- Insassen, welche mit der Spracherkennung- Einheit 24 erfasst und interpretiert worden sind, mit den Ergebnissen der Mimik-Erkennung 22, hier konkret dem Ergebnis des Lippenlesens zu einer resultierenden erkannten Reaktion des Fahrzeug-Insassen kombiniert. The reactions of the vehicle occupant obtained in this way are combined in the reaction recognition unit 26 to form a resulting recognized user response. For example, acoustic vocalizations of the vehicle occupant, which have been recorded and interpreted with the speech recognition unit 24, are combined with the results of the facial expression recognition 22, here specifically the result of lip reading, to form a resultant recognized response by the vehicle occupant.
Die resultierende erkannte Reaktion des Fahrzeug-Insassen wird der Maschinen-Lern- Komponente 20 zugeführt. Der Ablauf der Bewertung und Klassifizierung von Multimedia-Inhalten oder einzelnen Multimedia-Stücken wird nachfolgend anhand des Ablaufdiagramms gemäß Figur 2 skizziert. The resulting recognized reaction of the vehicle occupant is fed to the machine learning component 20. The course of the evaluation and classification of multimedia content or individual multimedia pieces is outlined below using the flow chart according to FIG. 2.
In Schritt 110 wird ein Multimedia-Stück aus einer Quelle, hier beispielsweise ein Musik- Stück, welches mittels des Rundfunkempfängers, also der ersten Quelle 11, aus einem empfangenen Rundfunksignal gewonnen wird, über die Wiedergabe- Einheit 13 wiedergegeben und damit an den Fahrzeug-Insassen ausgegeben. In step 110, a multimedia piece from a source, here, for example, a piece of music, which is obtained from a received radio signal by means of the radio receiver, that is to say the first source 11, is reproduced via the reproduction unit 13 and thus transmitted to the vehicle. Inmates issued.
Parameter oder Deskriptoren des gerade wiedergegebenen Multimedia-Stücks, welche aus dem empfangenen Rundfunksignal ebenfalls gewonnen werden, wie Titel und Interpret des Multimedia-Stücks, daneben Genre des Multimedia-Stücks, werden zur maschinellen Verarbeitung an die Maschinen-Lern-Komponente 20 übermittelt (Schritt 120). Parameters or descriptors of the multimedia piece currently being reproduced, which are also obtained from the received broadcast signal, such as the title and interpreter of the multimedia piece, along with the genre of the multimedia piece, are transmitted to the machine learning component 20 for machine processing (step 120).
Während der Wiedergabe des Multimedia-Stücks wird der Fahrzeug-Insasse beobachtet (Schritt 130). Dazu wird das Video-Signal der den Fahrzeug-Innenraum erfassenden Video- Kamera ausgewertet und daraus eine Mimik, gegebenenfalls per Lippenlesen erkannte Sprachäußerungen, eine Pose oder Posen-Änderung oder eine Geste des Fahrzeug-Insassen erfasst. Weiterhin wird während der Wiedergabe des Multimedia-Stücks das Mikrofon-Signal des im Fahrzeuginnenraum angeordneten Mikrofons auf Lautäußerungen des Fahrzeug-Insassen, insbesondere auf The vehicle occupant is observed during playback of the multimedia piece (step 130). For this purpose, the video signal of the video camera capturing the vehicle interior is evaluated, and facial expressions, possibly utterances recognized by lip reading, a pose or pose change or a gesture by the vehicle occupant are recorded. Furthermore, during the playback of the multimedia piece, the microphone signal of the microphone arranged in the vehicle interior is based on the vehicle occupant's utterances, in particular on
Sprachäußerungen hin untersucht und gegebenenfalls erkannte Sprachäußerungen erfasst. Hierbei wird vorzugsweise das Mikrofonsignal mit dem an die Wiedergabe- Einheit 13 ausgegebenen Audiosignal korreliert, so dass dessen Anteil aus dem Mikrofonsignal herausgerechnet und damit eine Erkennung von Lautäußerungen des Fahrzeug-Insassen erleichtert wird. Weiterhin wird auch die Bedienschnittstelle 21 auf eventuelle Bedienzugriffe des Fahrzeug-Insassen hin überwacht. Speeches are examined and, if necessary, recognized speeches are recorded. In this case, the microphone signal is preferably correlated with the audio signal output to the playback unit 13, so that its portion is calculated out of the microphone signal and thus it is easier to identify the vehicle occupant's utterances. Furthermore, the operator interface 21 is also monitored for possible operator access by the vehicle occupant.
Das Ergebnis der Beobachtung des Fahrzeug-Insassen wird als dessen mutmaßliche Reaktion auf das aktuelle wiedergegebene Multimedia-Stück der Maschinen-Lern- Komponente 20 zugeführt (Schritt 140). Die Maschinen-Lern-Komponente 20 lernt anhand der ihr zugeführten Informationen, hier der Informationen über das gerade wiedergegebene Multimedia-Stück und der beobachteten Reaktion des Fahrzeug-Insassen darauf einschließlich eventueller Bedienzugriffe des Fahrzeug-Insassen über die Bedienschnittelle 21 mittels eines Maschinen-Lern-Algorithmus eine oder mehrere Nutzerpräferenzen des Fahrzeug- Insassen mit Blick auf das gerade wiedergegebene Multimedia-Stück (Schritt 150). The result of the observation of the vehicle occupant is fed to the machine learning component 20 as the presumed reaction to the currently reproduced multimedia piece (step 140). The machine learning component 20 learns on the basis of the information supplied to it, here the information about the multimedia piece currently being played, and the observed reaction of the vehicle occupant to it, including possible operator access by the vehicle occupant via the operating interface 21 by means of a machine learning Algorithm one or more user preferences of the vehicle occupant with a view of the multimedia piece currently being played (step 150).
Bedienzugriffe zur Verringerung einer Wiedergabelautstärke, Änderung einer Signalquelle oder Wechsel auf einen Rundfunksender, das Abbrechen von Wiedergaben von Datenträger wiedergegebenen Multimedia-Stücken oder das Überspringen von in einer Playlist enthaltenen Multimedia-Stücken und dergleichen mehr können als Meinungsäußerung des Fahrzeug-Insassen zu einem aktuell wiedergegebenen Multimedia-Stück oder auch etwas allgemeiner Multimedia-Inhalt interpretiert werden. Wenn der Fahrzeuginsasse beispielsweise die Wiedergabelautstärke während der Wiedergabe eines bestimmten Musikstücks wiederholt reduziert oder den Rundfunksender oder die Signalquelle wechselt, wird der Maschinen-Lern-Algorithmus diesem Musikstück eine niedrige Bewertung zuordnen. Wenn andererseits der Fahrzeug-Insasse bei Wiedergabe eines anderen Musikstücks wiederholt die Lautstärke erhöht und dieses zu Ende hört, dann wird der Algorithmus diesem Musikstück eine hohe Bewertung bzw. Benutzer- Präferenz zuordnen und diesen in der Folge beispielsweise in eine Playlist oder Liste bevorzugter Musikstücke aufnehmen und zukünftig häufiger zur Wiedergabe auswählen als andere Musikstücke und insbesondere als mit geringer oder geringerer Bewertung. Operator accesses to reduce a playback volume, change a signal source or switch to a radio station, abort playback of media-reproduced multimedia items or skip multimedia items contained in a playlist and the like can be expressed by the vehicle occupant's opinion on one currently being reproduced Multimedia piece or something general multimedia content can be interpreted. For example, if the vehicle occupant repeatedly reduces the playback volume during the playback of a particular piece of music or changes the radio station or the signal source, the machine learning algorithm will assign a low rating to this piece of music. If, on the other hand, the vehicle occupant repeatedly increases the volume while listening to another piece of music and hears it to the end, then the algorithm will assign a high rating or user preference to this piece of music and subsequently include it in a playlist or list of preferred pieces of music, for example and choose more in the future for playback than other pieces of music and especially as with a lower or lower rating.
Abhängig von der Ausstattung des Fahrzeugs mit zur Innenraum-Sensierung geeigneten Sensoren kann die Bewertung und Klassifizierung weiter verfeinert werden. Die durch die Fahrzeuginnenraumsensoren erfasste und den Maschinen-Lern- Algorithmus interpretierte Meinungsäußerung der Fahrzeug-Insassen zu einem aktuell wiedergegebenen Multimedia-Inhalt kann beispielsweise an Werbeagenturen, Statistik- Datenbanken oder einen Fahrzeughersteller (OEM) weitergegeben werden. Wenn zum Beispiel ein Werbebeitrag über ein Konzert läuft und der Fahrer oder Fahrzeug-Insasse die Wiedergabelautstärke zur Wiedergabe des Werbebeitrags beispielsweise durch einen entsprechenden Benutzereingriff über ein Bedienelement erhöht, interpretiert der Maschinen-Lern-Algorithmus diese Aktion als Interesse des Fahrzeug-Insassen an dem Werbebeitrag. Das Multimedia-System kann beispielsweise mehr Informationen über dieses Konzert über eine Kommunikationsverbindung aus dem Internet laden und diese dem Fahrer auf dem Infotainment-System oder seinem mit dem Auto über Bluetooth gekoppeltes Handy zur Verfügung stellen. Der Fahrzeug-Insasse könnte aber beispielsweise auch die Wiedergabelautstärke erhöht haben, um die Depending on the equipment of the vehicle with sensors suitable for interior sensing, the evaluation and classification can be further refined. The vehicle occupants' expression of the vehicle occupancy sensors and interpreting the machine learning algorithm can be passed on, for example, to advertising agencies, statistical databases or a vehicle manufacturer (OEM) regarding a currently reproduced multimedia content. If, for example, an advertising contribution runs over a concert and the driver or vehicle occupant increases the playback volume for the reproduction of the advertising contribution, for example by corresponding user intervention via a control element, the machine learning algorithm interprets this action as the vehicle occupant's interest in the advertising contribution . For example, the multimedia system can provide more information via this concert via a communication link from the Internet and make this available to the driver on the infotainment system or his mobile phone connected to the car via Bluetooth. However, the vehicle occupant could also have increased the playback volume by, for example
Telefonnummer oder Webseite für den Ticketverkauf zu dem Konzert klar zu hören. So kann das Multimedia-System dieses Interesse erkennen, und dementsprechend darauf unterstützend reagieren. Clearly hear phone number or website for ticket sales to the concert. In this way, the multimedia system can recognize this interest and respond accordingly.
Vorzugsweise greift die Maschinen-Lern-Komponenten 20 bzw. der darin The machine learning components 20 or the one preferably engages therein
implementierte Maschinen-Lern-Algorithmus ergänzend auf den Nutzerpräferenz- Speicher 25 zu und bezieht die darin bereits vorliegenden Nutzer- Präferenzen des Fahrzeug-Insassen in das Lernen der Nutzer- Präferenzen des Fahrzeug-Insassen mit ein. implemented machine learning algorithm in addition to the user preference memory 25 and incorporates the user preferences of the vehicle occupant already present therein into the learning of the user preferences of the vehicle occupant.
Das Ergebnis des Maschinen-Lernens von Nutzerpräferenzen wird sodann als neu bzw. aktualisierte Nutzerpräferenz in den Nutzerpräferenz-Speicher 25 geschrieben (Schritt 160). The result of the machine learning of user preferences is then written into the user preference memory 25 as a new or updated user preference (step 160).
Für weitere Multimedia-Stück-Wiedergaben greift die Steuerung 15 auf den The controller 15 accesses the for further multimedia piece reproductions
Nutzerpräferenz-Speicher 25 zu und wählt ein wiederzugebendes Multimedia-Stück gemäß den vorliegenden Nutzerpräferenzen für den Fahrzeug-Insassen aus (Schritt 170). Damit beginnt der Ablauf wieder neu in Schritt 110. User preference memory 25 and selects a multimedia piece to be played back according to the present user preferences for the vehicle occupant (step 170). The process thus begins again in step 110.
Es handelt sich somit vorzugsweise um ein iteratives Verfahren. Dieses läuft solange weiter, wie der Fahrzeug-Insasse derselbe ist bzw. bleibt. It is therefore preferably an iterative process. This continues as long as the vehicle occupant is or remains the same.
Wird hingegen in Schritt 180 festgestellt, dass der aktuelle Fahrzeug-Insasse nicht demjenigen entspricht, mit dem das Verfahren bislang durchgeführt worden ist, so wird im Nutzerpräferenz-Speicher 25 ein vorhandenes zweites Profil für den erkannten zweiten Fahrzeug-Insassen ausgewählt (Schritt 190) herangezogen und der Ablauf startet mit diesem zweiten Benutzer- Profil neu in Schritt 110. Sofern noch kein zweites Benutzer- Profil im Nutzerpräferenz-Speicher 25 vorhanden ist, wird dieses dort neu angelegt. Die Identifikation des Fahrzeug-Insassen bzw. die Identifikation des zweiten Fahrzeug- Insassen kann durch eine manuelle Bedieneingabe über die Bedienschnittstelle 21 erfolgen. Daneben kann diese aber auch automatisch mittels der Video-basierten Mimik- bzw. Gesichtserkennung 22 vorgenommen werden. If, on the other hand, it is determined in step 180 that the current vehicle occupant does not correspond to that with which the method has been carried out so far, an existing second profile for the recognized second vehicle occupant is selected in the user preference memory 25 (step 190) and the process starts again with this second user profile in step 110. If a second user profile does not yet exist in the user preference memory 25, this is created there again. The identification of the vehicle occupant or the identification of the second vehicle occupant can take place by means of a manual operating input via the operating interface 21. In addition, this can also be carried out automatically by means of video-based facial expression or facial recognition 22.

Claims

Patentansprüche Claims
1. Verfahren zur Steuerung einer Multimedia-Einrichtung, welche zum Betrieb in einem Fahrzeug eingerichtet ist, 1. Method for controlling a multimedia device which is set up for operation in a vehicle,
wobei die Multimedia-Einrichtung eingerichtet ist, ein Multimedia-Stück über eine Wiedergabe- Einrichtung im Fahrzeug zur Präsentation an einen Fahrzeug-Insassen auszugeben, the multimedia device being set up to output a multimedia piece via a playback device in the vehicle for presentation to a vehicle occupant,
wobei Reaktionen des Fahrzeuginsassen sensorisch erfasst werden, reactions of the vehicle occupants are sensed,
wobei Parameter eines ausgegebenen Multimedia-Stücks und die mit der Ausgabe des Multimedia-Stücks zeitlich korrelierenden, erfassten Reaktionen des Fahrzeug- Insassen einer maschinellen Verarbeitung, umfassend ein Maschinen-Lern-Verfahren, unterzogen werden, wherein parameters of an output multimedia piece and the reactions of the vehicle occupant, which are time-correlated with the output of the multimedia piece, are subjected to machine processing, including a machine learning process,
wobei die maschinelle Verarbeitung eine Bewertung des Multimedia-Stücks hinsichtlich Präferenzen des Fahrzeuginsassen ergibt, the machine processing results in an evaluation of the multimedia piece with regard to preferences of the vehicle occupant,
und wobei die Bewertung des Multimedia-Stücks zur Steuerung zeitlich nachfolgender Ausgaben von Multimedia-Stücken verwendet und/oder an eine bezüglich der and wherein the evaluation of the multimedia piece is used to control subsequent temporal outputs of multimedia pieces and / or to one with respect to the
Multimedia- Einrichtung externe Einrichtung über eine Kommunikationsschnittstelle übermittelt wird. Multimedia device external device is transmitted via a communication interface.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, 2. The method according to claim 1, characterized in that
dass Video-Signale eines Fahrzeug-Innenraums aufgenommen werden und dass Reaktionen des Fahrzeug-Insassen aus den Videosignalen abgeleitet werden. that video signals of a vehicle interior are recorded and that reactions of the vehicle occupant are derived from the video signals.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, 3. The method according to claim 2, characterized in that
dass aus den Video-Signalen Posen oder Posen-Änderungen des Fahrzeug-Insassen ermittelt werden und die Posen- oder Posen-Änderungen zur Bewertung des ausgegebenen Multimedia-Stücks interpretiert werden. that poses or poses changes of the vehicle occupant are determined from the video signals and the poses or poses changes are interpreted to evaluate the multimedia piece being output.
4. Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass aus den Video-Signalen eine Mimik des Fahrzeug-Insassen ermitelt wird und die ermitelte Mimik zur Bewertung des ausgegebenen Multimedia-Stücks interpretiert werden. 4. The method according to any one of claims 2 or 3, characterized in that a facial expression of the vehicle occupant is determined from the video signals and the determined facial expression is interpreted to evaluate the multimedia piece being output.
5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass aus den Video-Signalen Lippenbewegungen des Fahrzeug-Insassen ermitelt werden und die ermitelten Lippenbewegungen zur Bewertung des ausgegebenen Multimedia- Stücks ausgewertet werden. 5. The method according to any one of claims 2 to 4, characterized in that lip movements of the vehicle occupant are determined from the video signals and the determined lip movements are evaluated to evaluate the multimedia piece output.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass im Fahrzeug-Innenraum akustische Signale erfasst und daraus Lautäußerungen des Fahrzeug-Insassen als Reaktionen des Fahrzeug-Insassen erkannt werden und dass die Lautäußerungen zur Bewertung des ausgegebenen Multimedia-Stücks interpretiert werden. 6. The method according to any one of the preceding claims, characterized in that acoustic signals are detected in the vehicle interior and vocalizations of the vehicle occupant are recognized therefrom as reactions of the vehicle occupants and that the vocalizations are interpreted for evaluating the multimedia piece output.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, 7. The method according to claim 6, characterized in
dass die Lautäußerungen mitels eines Spracherkennungsverfahrens interpretiert und in den Lautäußerungen erkannte Sprache zur Bewertung des Multimedia-Stücks verwendet wird. that the utterances are interpreted by means of a speech recognition process and that language recognized in the utterances is used to evaluate the multimedia piece.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Bedienzugriffe des Fahrzeug-Insassen auf die Multimedia-Einrichtung erfasst werden und daraus eine Bewertung des ausgegebenen Multimedia-Stücks abgeleitet wird. 8. The method according to any one of the preceding claims, characterized in that operator access by the vehicle occupant to the multimedia device is recorded and an evaluation of the multimedia piece output is derived therefrom.
9. Einrichtung, ausgebildet zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche. 9. Device designed to carry out the method according to one of the preceding claims.
10. Computerprogramm umfassend Programmcode, welches dazu eingerichtet ist, bei Abarbeitung auf einem Computer oder einer Einrichtung nach Anspruch 9 das Verfahren nach einem der Ansprüche 1 bis 8 durchzuführen. 10. Computer program comprising program code which is set up to carry out the method according to one of claims 1 to 8 when processed on a computer or device according to claim 9.
Verfahren zur Steuerung einer Multimedia- Einrichtung sowie Computerprogramm und Einrichtung dazu.  Method for controlling a multimedia device and computer program and device therefor.
PCT/EP2019/072395 2018-09-04 2019-08-21 Method for controlling a multimedia device, and computer program and device therefor WO2020048778A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018214976.3 2018-09-04
DE102018214976.3A DE102018214976A1 (en) 2018-09-04 2018-09-04 Method for controlling a multimedia device and computer program and device therefor

Publications (1)

Publication Number Publication Date
WO2020048778A1 true WO2020048778A1 (en) 2020-03-12

Family

ID=67810582

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/072395 WO2020048778A1 (en) 2018-09-04 2019-08-21 Method for controlling a multimedia device, and computer program and device therefor

Country Status (2)

Country Link
DE (1) DE102018214976A1 (en)
WO (1) WO2020048778A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112849061A (en) * 2021-03-11 2021-05-28 重庆金康赛力斯新能源汽车设计院有限公司 In-vehicle mode switching method and related equipment

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1013510A2 (en) * 1998-12-23 2000-06-28 Mannesmann VDO Aktiengesellschaft Procedure for adapting vehicle control unit parameters
AT505828A1 (en) * 2007-10-04 2009-04-15 Reditune Isterreich Bornhauser AUTOMATIC IMPROVEMENT OF THE MUSIC OFFER
DE102013218291A1 (en) 2012-09-25 2014-03-27 Robert Bosch Engineering and Business Solutions Ltd. Method for controlling audiobility of audio content during playback, involves detecting, whether played audio content is included in preference list, where playback audiobility is increased from actual value to predetermined value
US20140306814A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Pedestrian monitoring application
US20150053066A1 (en) * 2013-08-20 2015-02-26 Harman International Industries, Incorporated Driver assistance system
US20150324568A1 (en) * 2014-05-09 2015-11-12 Eyefluence, Inc. Systems and methods for using eye signals with secure mobile communications
DE102016001194A1 (en) 2016-02-03 2016-08-11 Daimler Ag System and method for camera-based driver identification
US20190171988A1 (en) * 2017-12-06 2019-06-06 International Business Machines Corporation Cognitive ride scheduling

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110040707A1 (en) * 2009-08-12 2011-02-17 Ford Global Technologies, Llc Intelligent music selection in vehicles
US20130030645A1 (en) * 2011-07-28 2013-01-31 Panasonic Corporation Auto-control of vehicle infotainment system based on extracted characteristics of car occupants
US9037354B2 (en) * 2011-09-09 2015-05-19 Thales Avionics, Inc. Controlling vehicle entertainment systems responsive to sensed passenger gestures

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1013510A2 (en) * 1998-12-23 2000-06-28 Mannesmann VDO Aktiengesellschaft Procedure for adapting vehicle control unit parameters
AT505828A1 (en) * 2007-10-04 2009-04-15 Reditune Isterreich Bornhauser AUTOMATIC IMPROVEMENT OF THE MUSIC OFFER
DE102013218291A1 (en) 2012-09-25 2014-03-27 Robert Bosch Engineering and Business Solutions Ltd. Method for controlling audiobility of audio content during playback, involves detecting, whether played audio content is included in preference list, where playback audiobility is increased from actual value to predetermined value
US20140306814A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Pedestrian monitoring application
US20150053066A1 (en) * 2013-08-20 2015-02-26 Harman International Industries, Incorporated Driver assistance system
EP2857276A2 (en) 2013-08-20 2015-04-08 Harman International Industries, Incorporated Driver assistance system
US20150324568A1 (en) * 2014-05-09 2015-11-12 Eyefluence, Inc. Systems and methods for using eye signals with secure mobile communications
DE102016001194A1 (en) 2016-02-03 2016-08-11 Daimler Ag System and method for camera-based driver identification
US20190171988A1 (en) * 2017-12-06 2019-06-06 International Business Machines Corporation Cognitive ride scheduling

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112849061A (en) * 2021-03-11 2021-05-28 重庆金康赛力斯新能源汽车设计院有限公司 In-vehicle mode switching method and related equipment

Also Published As

Publication number Publication date
DE102018214976A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
EP2909833B1 (en) Speech recognition in a motor vehicle
DE102009051508B4 (en) Device, system and method for voice dialog activation and guidance
DE60213913T2 (en) System and method of content presentation
DE60120062T2 (en) Voice control of electronic devices
CN111966320B (en) Multimodal interaction method for vehicle, storage medium, and electronic device
DE102017121059A1 (en) IDENTIFICATION AND PREPARATION OF PREFERRED EMOJI
DE102020100497A1 (en) SYSTEMS AND METHODS OF VEHICLE-BASED REAL-TIME ANALYSIS AND USES THEREOF
CN109302486B (en) Method and system for pushing music according to environment in vehicle
DE102013007502A1 (en) Computer-implemented method for automatically training a dialogue system and dialog system for generating semantic annotations
DE102018125966A1 (en) SYSTEM AND METHOD FOR RECORDING KEYWORDS IN A ENTERTAINMENT
DE102014118450A1 (en) Audio-based system and method for classifying in-vehicle context
DE112017007546T5 (en) Gesture control device and gesture control method
DE102018125564A1 (en) RESPONSE RAPID ACTIVATION OF A VEHICLE FEATURE
DE102017121054A1 (en) REMOTE LANGUAGE RECOGNITION IN A VEHICLE
DE102014119052A1 (en) Categorization of broadcasting generators
DE102016217026A1 (en) Voice control of a motor vehicle
EP3095114A1 (en) Method and system for generating a control command
WO2020048778A1 (en) Method for controlling a multimedia device, and computer program and device therefor
DE102017213249A1 (en) Method and system for generating an auditory message in an interior of a vehicle
DE102019126688A1 (en) SYSTEM AND METHOD FOR AUTOMATIC SUBTITLE DISPLAY
DE112014007288T5 (en) Voice recognition system
DE102015014045B3 (en) Automatic channel change in a car radio
CN113771703A (en) Automobile copilot seat adjusting method and system
CN112829763A (en) Voice interaction processing method and system and automobile
EP3948493A1 (en) Method and apparatus for interaction with an environment object in the surroundings of a vehicle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19762100

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19762100

Country of ref document: EP

Kind code of ref document: A1