Spotify’s neueste KI-Patentanmeldung zur Stimmungserkennung: „Identification of Taste Attributes From An Audio Signal“

Nutzersperspektive
wirtschaftliche Perspektive
technologische Perspektive
rechtliche Perspektive
gesellschaftliche Perspektive

Zahlen und Fakten zum Unternehmen

Das Unternehmen Spotify wurde 2006 in Schweden von Daniel Ek gegründet. Spotify ist ein Audio-Streaming Service, der es ermöglicht, Musik, Hörbücher, Podcasts und Videos zu streamen. Gelauncht wurde der Service erstmals im Jahr 2008 und ist mittlerweile der beliebteste Streaming-Dienst der Welt. Im Angebot des Streaming-Giganten befinden sich über 70 Millionen Titel und mittlerweile mehr als 2.2 Millionen Podcasts. 2021 verzeichnete Spotify über 345 Millionen Nutzer*innen weltweit, von denen 155 Millionen Nutzer*innen ein zu zahlendes Abonnement besitzen.¹ Vertreten ist Spotify in insgesamt 178 Märkten. Bei einem Umsatz von 7.88 Milliarden Euro im Jahr 2020 belief sich das Ergebnis der Spotify Technology S.A. im selben Jahr auf 581 Millionen Euro.² Der Streaming-Dienst ist dabei aufgeteilt in zwei unterschiedliche Abonnement-Modelle. Das Freemium-Modell, welches für die Nutzer*innen kostenlos ist, aber Werbung beinhaltet und weniger Funktionen als die Premium-Variante bietet und das Premium-Modell. Dieses unterscheidet sich in weitere Modelle, welche Familien, Student*innen und Paare ansprechen. Bei der Premium-Variante erhalten die Nutzer*innen Zugriff auf alle Funktionen des Dienstes und bekommt keine Werbung während des Streamings eingespielt.

Zahlen und Fakten zur Anwendung

Am 12. Januar 2021 erhielt Spotify die Genehmigung für ihre US-Patentanmeldung: “Identification of Taste Attributes From An Audio Signal”.³ Das Patent wurde bereits drei Jahre zuvor, im Februar 2018, beantragt und ist das neueste genehmigte Patent des Streaming-Anbieters. Im Patent geht es um die Nutzung von Spracherkennungssoftware, die verschiedene Attribute der Stimme erkennen und verarbeiten kann. Dazu gehören unter anderem Attribute, wie “Intonation, Betonung, Rhythmus”.⁴ Das Spotify-Patent beschreibt, dass auch der emotionale Zustand, das Geschlecht, das Alter und der Akzent der Sprecher*innen, die die Stimme abgibt, analysiert werden. Die von der Technologie gesammelten Metadaten werden auch die Anzahl der Personen in der Umgebung anzeigen, in der das Audiosignal eingegeben wird. All diese Metadaten werden zusammen mit den “früheren Anfragen” von Spotify-Hörer*innen, der “Hör- und Bewertungshistorie”, “Links zu assoziierten Profilen wie denen von Freunden oder Kollegen des Nutzers” und “der bestehenden Musiksammlung und/oder Bibliothek des Nutzers” gesammelt und analysiert.⁵ Laut der Spotify-Patentanmeldung wird die Ausgabe die Audioausgabe von Musik sein, die den Präferenzen entspricht, oder eine Anzeige von empfohlenen nächsten Musiktiteln, die den Präferenzen entsprechen.⁶ Die Ausgabe könnte auch darin bestehen, einfach eine Empfehlung auf einer visuellen Anzeige bereitzustellen. Während das neue Spotify-Patent nicht überraschend kommt, werden die Effektivität oder die problematischen Faktoren, die die neue Technologie mit sich bringt, den Nutzer*innen erst bekannt sein, wenn sie auf den Markt kommt.

Die Perspektiven

Stell dir vor, dass du nach einem langen Arbeitstag, mit dem Fahrrad von deinem Büro durch die Innenstadt nach Hause fährst. Aufgrund des alltäglichen Feierabendverkehrs, den Geräuschen des Straßenchaos und möglicherweise noch einer Auseinandersetzung dem Partner, schlägt Spotify eine Playlist vor. Diese Playlist enthält Songs, die dich runterbringen und entspannen. Endlich kannst du den langen und stressigen Alltag hinter dir lassen und hast Zeit nur für dich und deine Musik. Spotify hat die Geräusche in deiner Umgebung analysiert und bemerkt, dass du ein wenig Ruhe gebrauchen könntest. Ein perfektes Nutzererlebnis oder grenzüberschreitende Künstliche Intelligenz? Wir werden in der folgenden Arbeit die neueste Patentanmeldung des internationalen Streaming-Anbieters Spotify analysieren und diese aus verschiedenen Perspektiven beleuchten. 

Die Nutzerperspektive

Wie bereits im Benutzerszenario beschrieben, besteht die Funktion der neuen „KI-basierten“ Anwendung Spotify’s darin, die Stimme und die Hintergrundgeräusche der Nutzer*innen zu analysieren. Die Berechtigung dazu wird den Nutzer*innen mittels der Zugriffsgewährung auf das Smartphone-Mikrofon bereitgestellt. Anhand der gesammelten Metadaten wie Stimmlage der Nutzer*innen, andere Menschen, die sich unterhalten, Verkehrsgeräusche, zwitschernde Vögel und alle weiteren Faktoren in der hörbaren Umgebung. Die von außen stammenden Metadaten werden hier als „Umgebungsmetadaten“ bezeichnet. Auf der anderen Seite gibt es die „Inhaltsmetadaten“, wie Alter, Geschlecht, Akzent und Stimmlage der User. Die Stimmlage der Nutzer*innen liefert Spotify den emotionalen Zustand, in welchem sich die Person momentan befindet. Diese Inhalts- und Umgebungsmetadaten werden von der Anwendung analysiert und dienen Spotify als Input, durch welchen der Streamingdienst den Nutzer*innen Musik und Podcasts, entsprechend ihren Präferenzen, präsentiert.⁷ Für die Nutzer*innen der App stellt dies eine angenehme “User Experience” dar, da genau das abgespielt wird, was zum Moment passt. Bisher wurden Nutzer*innen bereits verschiedene, durch künstliche Intelligenz generierte Playlists, wie “Dein Mix der Woche” oder “Release Radar” präsentiert. Diese enthalten jedoch lediglich Lieder, die auf Basis des Nutzerverhaltens zusammengestellt wurden. Hier gilt das Prinzip: “Dir gefällt Künstler*in XY oder Song Z, dann wären folgende Lieder vielleicht etwas für dich:…”. Mit dem neuen Patent wird die Zusammenstellung nur noch indirekt und unbewusst durch die Nutzer*innen und die Umgebung beeinflusst.

Die technologische Perspektive

Aus technologischer Sicht handelt es sich bei der neuesten Anwendung Spotify’s, um ein System, welches bestimmte Audiosignale verarbeitet und bereitstellt. Wie bereits beschrieben nutzt das Patent Metadaten, um Nutzer*innen bestimmte ausgewählte Inhalte zur Verfügung zu stellen. Die Metadaten werden im Vorfeld mit bestimmten Kennzeichen identifiziert und diese Kennzeichen wiederum mit Inhalten des Streamingdienstes. Bei der Analyse der Metadaten werden die Kennzeichen ausgewertet und bestimmte Medieninhalte ausgegeben. So lautet die Beschreibung in der Anmeldung des Patents beim „United States Patent and Trademark Office“.

Bei der Verarbeitung der Audiosignale werden diese nach der Spracherkennung zudem gefiltert und formatiert. Es werden beispielsweise doppelte Wörter und Füllwörter erkannt und gelöscht. Zusätzlich kombiniert die Anwendung die inhaltlichen Audiosignale mit charakterisierenden Metadaten, wie “dem emotionalen Zustand, dem Geschlecht, dem Alter und dem Akzent der Sprecher*in, der die Stimme abgibt.” Auch die Anzahl der in der Umgebung befindlichen Personen wird gemessen. Der emotionale Zustand, also die Stimmung der Hörer*in, wird voraussichtlich anhand “Intonation, Betonung und Rhythmus”⁹ identifiziert. Die neue Funktion geht noch weiter, indem sie diese Daten und Messungen mit vergangenen Daten der Handynutzung der Hörer*innen verbindet. Hierzu werden der Suchverlauf, Links zu Freundesprofilen und die bereits bestehende Sammlung an Audioinhalten der Nutzer*innen analysiert.¹⁰

Die Informationen werden innerhalb einer „Hidden-Markov-Modell-Architektur” verbunden.¹¹ Das Hidden-Markov-Modell ist ein stochastisches Modell, dass aus einer Anzahl beobachtbarer Variablen auf unbekannte Variablen schlussfolgert. Ein Beispiel für das HMM-Modell wäre die Vorhersage des Wetters, basierend auf der Art der Kleidung (beobachtbare Variable) die eine Person trägt, angepasst an das vorherrschende Wetter und die voraussichtliche Veränderung (versteckte Variable). Dadurch kann Spotify eine auf Wahrscheinlichkeit basierte Aussage treffen, wie die Stimmung der Nutzer*innen ist.

Zusammenfassend werden aus technologischer Perspektive also drei Bestandteile, der Inhalt, inhaltliche Metadaten und Umgebungsmetadaten gesammelt und analysiert, um den Präferenzen entsprechende Audioinhalte bereitzustellen.

Die wirtschaftliche Perspektive

Angesichts der wirtschaftlichen Perspektive der Anwendung erweist sich diese als wertvolle “Unique Selling Proposition” des Streamingdienstes. Dies bedeutet, dass sich Spotify, durch die neue Funktion und die Patentanmeldung dieser Entwicklung, von der Konkurrenz abheben kann und sich somit einen Wettbewerbsvorteil verschafft.¹⁴ Gerade auch, weil ein regelrechter Trend in Richtung “Customization” besteht. Hier geht es darum, die Wünsche der Kund*innen, auch wenn ihnen diese selbst noch unbewusst sind, zu erkennen und ihnen ein maßgeschneidertes Produkt zu liefern. User*innen müssen ihre Wünsche nicht mehr äußern, um diese erfüllt zu bekommen. Das Ziel Spotify’s ist es ihnen ein einwandfreies Nutzererlebnis zu bieten. 

Gerade in der heutigen Zeit, in welcher viele Unternehmen mit der steigenden Nachfrage der westlichen Welt auf Massenproduktion setzen, um das Angebot der Nachfrage anzupassen, wird es für Verbraucher*innen zunehmend wichtig sich von der Masse abzuheben. Sie wünschen sich Produkte, die nicht jeder hat. Wirtschaftspsychologisch gesehen, ist es ebenfalls wichtig die Kund*innen mit Auswahlmöglichkeiten nicht zu überfordern, sondern ihnen einen Rahmen an Möglichkeiten zu bieten.¹⁵ Indem Spotify die Metadaten automatisch analysiert nimmt er den User*innen die Auswahl im ersten Schritt ab. Dennoch kann im zweiten Schritt aus verschiedenen Songs und Playlists auswählt werden.

Da es sich hier um ein anhand von Informations- und Kommunikationstechniken erstelltes Produkt handelt, welches Millionen von Nutzer*innen individuell zur Verfügung gestellt wird, redet man von „Mass Customization“. Diese wird folgendermaßen definiert: „Die Produktion von Gütern und Leistungen für einen (relativ) großen Absatzmarkt, welche die unterschiedlichen Bedürfnisse jedes einzelnen Nachfragers dieser Produkte treffen, zu Kosten, die ungefähr denen einer massenhaften Fertigung vergleichbarer Standardgüter entsprechen.“¹⁶

Ein weiterer wichtiger wirtschaftlicher Faktor ist die Kundenbindung. Gerade weil die Anzahl an Streaming-Anbietern immer mehr wächst, ist es sehr wichtig geworden, den Kund*innen ein individuelles Angebot bereitzustellen und auf die persönlichen Bedürfnisstrukturen einzugehen. Die Kund*innen erhalten dieses besondere Angebot nur bei Spotify und bauen somit eine besondere Bindung zu dem Anbieter auf.¹⁷

Wirtschaftlich gesehen ist es durchaus sinnvoll eine solche Anwendung einzuführen, um die „Unique Selling Proposition“ zu verstärken und eine intensive Kundenbindung aufzubauen.

Die rechtliche Perspektive

Aus rechtlicher Sicht stößt die Patentanmeldung auf einige Probleme. Zum einen benötigt Spotify bevor es die Daten überhaupt sammeln kann, die Genehmigung der Gerätenutzer*innen, um Zugriff auf das Mikrofon zu erhalten. Sollte diese Funktion zudem im “always-on”-Modus sein, wäre dies ein massiver Eingriff in die Privatsphäre der User*innen.¹⁸ Mit dem ständigen Zuhören kommt es zudem auch noch zu einem großen Sicherheitsrisiko, wenn zum Beispiel private Gespräche zwischen Personen aufgenommen werden.¹⁹ Inwiefern diese Technologie sich dabei durchsetzen kann, ist zudem von der rechtlichen Lage des Marktes abhängig. In Bezug auf die Europäische Union wird in der Datenschutz-Grundverordnung die Befugnis über “automatisierte Entscheidungen” bezüglich Einzelfällen geregelt.²⁰ Dabei gilt ein Verbot automatisierter Entscheidungen, wie es im Patent der Fall wäre nur, insofern diese Entscheidung “rechtliche Wirkung entfaltet oder sie in ähnlicher Weise erheblich beeinträchtigt”.²¹ Inwiefern hierbei das Abspielen eines Musiktitels als erheblich eingeschätzt werden kann, bleibt zu klären. 

Im Gegensatz zur EU verfügt der amerikanische Markt jedoch nicht über Regularien, die den automatisierten Entscheidungsprozess beeinflussen. Sollten mit den gesammelten Daten jedoch biometrische Informationen ohne vorherige Zustimmung der Nutzer*innen erfolgen, würde das Patent gegen den „Illinois’ Biometric Information Processing Act“ verstoßen.²²

Ein weiteres Problem des Patents sind die „Profiling-Regelungen“ der DSGVO. Nach Artikel 4 Nr. 4 DSGVO ist „Profiling jeder Art und die automatisierte Verarbeitung personenbezogener Daten, um auf dessen Grundlage bestimmte persönliche Aspekte zu bewerten”²³ verboten. Hierbei würde das Interpretieren der Sprache der Nutzer*innen und einer anschließenden Schlussfolgerung dieser Informationen definitiv in den Bereich Profiling fallen.

Die gesellschaftliche Perspektive

Auch aus ethischer Sicht ist das Patent in zahlreichen Punkten problematisch. Dazu gehört vor allem die “always-on” Funktion, bei der das Endgerät ständig zuhört. Dies ist vergleichbar zu Sprachassistenten wie Alexa oder Siri und stellt einen starken Eingriff in die Privatsphäre der Hörer*innen da. Zudem wird das Monitoring der Stimmung der Nutzer*innen auf sehr starken Widerstand von Datenschützer*innen stoßen.²⁴ Laut der Beschreibung des Patents erhält Spotify nicht nur Zugriff auf eigene Informationen, wie z.B. die eigene Stimmung oder Standortdaten, sondern auch Informationen über Personen, die sich in der Nähe der Nutzer*innen befinden und der Sammlung dieser Informationen nie zugestimmt haben. Auch die Intention des Patents ist ethisch diskutierbar. Spotify könnte mithilfe der Stimmungserkennung und der automatisierten Entscheidung aktiv die Laune der eigenen Nutzer*innen beeinflussen. Algorithmische Entscheidungen, die auf Attributen wie Alter und Geschlecht basieren, können sehr stereotypisierend sein.²⁵

Auch Tonalität, Rhythmus und weitere Aspekte der Stimme, die das Patent analysieren möchte, können zu stereotypisierenden Einschätzungen führen. Aus einer musikalischen Perspektive führt das Patent zudem dazu, dass das selbstständige Suchen und Finden von Musik noch mehr durch algorithmische Entscheidungen beeinflusst wird. Damit können Musikgeschmäcker in Zukunft maßgeblich durch Algorithmen beeinflusst werden. Auch das Erstellen virtueller Profile, die neben den gesammelten Informationen aus der Spracherkennung weitere Informationen, wie zum Beispiel bereits gespielte Lieder oder den Musikgeschmack der Freund*innen miteinbeziehen sind neben der bereits angesprochenen rechtlichen Problematik auch ethisch kritisch zu sehen.

Fazit

Das neue Patent des Streaming-Giganten ist ein interessanter Vorschlag, der die Nutzer*innen und die Anwendung noch weiter miteinander verknüpfen soll. Aus Sicht Spotify´s sollen durch die Stimmungserkennung zusätzliche Nutzen der Anwendung für Endverbraucher*innen geschaffen werden. Daraus erhofft sich der schwedische Streaming-Anbieter einen weiteren Wettbewerbsvorteil im Kampf um die begrenzte Hörzeit der Endanwender*innen. Auch technologisch ist dieses Patent eine Erweiterung der bereits vielzähligen Möglichkeiten, die Spotify in Kombination mit künstlicher Intelligenz nutzt. Jedoch muss berücksichtigt werden, dass dieses Patent, wie andere zuvor auf ethische und rechtliche Komplikationen stoßen wird, sollte es tatsächlich umgesetzt werden. Die größte Frage stellt sich dabei wohl in Bezug auf die Privatsphäre der Nutzer*innen, die durch die “always-on”-Funktion des Patents massiv bedrängt werden würde. Die Aufnahme von, beispielsweise Gesprächen mit anderen Personen, stellt zudem ein ernst zu nehmendes Risiko dar. Sollte Spotify aufgrund der aufgenommenen Gespräche Schlussfolgerungen über Nutzer*innen treffen und diesem somit zum Beispiel Musiktitel basierend auf der algorithmisch interpretierten Stimmung vorschlagen, würde der Dienst gegen die Profiling-Regelungen des DSGVO verstoßen. Daneben gibt es weitere rechtliche Grenzen seitens der DSGVO. Je nach Rechtslage des Landes wird Spotify es also mehr oder weniger schwer haben, dieses Patent durchzusetzen. Aus ethischer Sicht sind vor allem Rückschlüsse basierend auf Alter und Geschlecht, aber auch auf Tonalität und weiteren Spracheigenschaften diskriminierend gegenüber den User*innen und führen zu einem algorithmischen Schubladendenken. Zudem ist auch der Einfluss, den Spotify durch diese Funktion auf den emotionalen Zustand der Hörer*in hat, problematisch anzusehen. Für Spotify ist dies jedoch nicht das erste Patent, welches vor zahlreichen rechtlichen und ethischen Dilemmas steht. Deshalb bleibt abzuwarten, ob dieses Patent überhaupt umgesetzt werden kann und inwiefern die tatsächliche Umsetzung dem aktuellen Patent entspricht. Dabei erntet Spotify aber jetzt schon reichlich Kritik für dieses Patent und würde sicherlich noch mehr erwarten können, sollte die Funktion trotz aller rechtlicher Bedenken einen Weg zur Umsetzung finden.

Von Talisa Scheufele und David Wirth

Coolness Faktor 1/3
Innovationsgrad 2/3
Mainstream 4/5
Previous
Next

[1] Vlg. Spotify (o.J). Company Info. Spotify, https://newsroom.spotify.com/company-info/ (Zugriff am 29.05.2021).

[2] Vlg. Spotify (2021). Umsatz und Gewinn bzw. Verlust von Spotify in den Jahren 2008 bis 2020 (in Millionen Euro) [Graph]. Statista., von https://de.statista.com/statistik/daten/studie/297081/umfrage/umsatz-und-gewinn-von-spotify/ (Zugriff am 29.05.2021).

[3] Vlg. Spotify (2018). „Identification of Taste Attributes From An Audio Signal“. US00000010891948B2. https://www.musicbusinessworldwide.com/files/2021/01/SPOT-Patent.pdf (Zugriff am 29.05.2021).

[4] Vlg. Spotify (2018). „Identification of Taste Attributes From An Audio Signal“. US00000010891948B2. https://www.musicbusinessworldwide.com/files/2021/01/SPOT-Patent.pdf (Zugriff am 29.05.2021).

[5] Vlg. Spotify (2018). „Identification of Taste Attributes From An Audio Signal“. US00000010891948B2. https://www.musicbusinessworldwide.com/files/2021/01/SPOT-Patent.pdf (Zugriff am 29.05.2021).

[6] Vgl. Spotify (2018). „Identification of Taste Attributes From An Audio Signal“. US00000010891948B2. https://www.musicbusinessworldwide.com/files/2021/01/SPOT-Patent.pdf (Zugriff am 29.05.2021).

[7] Vgl. Stassen, M. (2021). Spotify’s latest invention monitors your speech, determines your emotional state… and suggests music based on it. MusicBusinessWorldwide.com, https://www.musicbusinessworldwide.com/spotifys-latest-invention-will-determine-your-emotional-state-from-your-speech-and-suggest-music-based-on-it/ (Zugriff am 29.05.2021).

[8] Vgl. Goswami, N. (2021). Spotify’s Voice Analysis Technology May Soon Suggest Music Based on your Mood. Mans World India, https://www.mansworldindia.com/tech/spotifys-voice-analysis-technology-may-soon-suggest-music-based-on-your-mood/ (Zugriff am 29.05.2021).

[9] Vlg. Stassen, M. (2021). Spotify’s latest invention monitors your speech, determines your emotional state… and suggests music based on it. MusicBusinessWorldwide.com, https://www.musicbusinessworldwide.com/spotifys-latest-invention-will-determine-your-emotional-state-from-your-speech-and-suggest-music-based-on-it/ (Zugriff am 29.05.2021).

[10] Vgl .Goswami, N. (2021). Spotify’s Voice Analysis Technology May Soon Suggest Music Based on your Mood. Mans World India, https://www.mansworldindia.com/tech/spotifys-voice-analysis-technology-may-soon-suggest-music-based-on-your-mood/ (Zugriff am 29.05.2021).

[11] Vlg. Savage, M. (2021). Spotify wants to suggest songs based on your emotions. BBC News/ US Patent Office, https://www.bbc.com/news/entertainment-arts-55839655 (Zugriff am 29.05.2021).

[12] Vgl. Markgraf, D. (o.J.). Unique Selling Proposition (USP). Gabler Wirtschaftslexikon, https://wirtschaftslexikon.gabler.de/definition/unique-selling-proposition-usp-50075 (Zugriff am 29.05.2021).

[13] Vgl . Autor unbekannt (2020). Die Individualität der Masse – wie Kunden ihre Produkte aktiv mitgestalten und die Unternehmen davon profitieren. marketing-Börse, https://www.marketing-boerse.de/fachartikel/details/2023-mass-customization/168027 (Zugriff am 29.05.2021).

[14] Vlg. Piller, F.T. (1998). Kundenindividuelle Massenproduktion: die Wettbewerbsstrategie der Zukunft. München: Hanser Verlag.

[15] Vgl. Wörz, S. (2004). Mass Customization – Das Konzept der kundenindividuellen Massenproduktion. München: GRIN Verlag, https://www.grin.com/document/34171 (Zugriff am 29.05.2021).

[16] Vgl. Autor unbekannt (2021). Access Now calls Spotify to abandon voice recognition technology. digwatch, https://dig.watch/updates/access-now-calls-spotify-abandon-voice-recognition-technology (Zugriff am 29.05.2021).

[17] Vgl. Bateman, R. (2021). Spotify´s Speech Recognition Patent: Should We Be Worried? ,https://dig.watch/updates/access-now-calls-spotify-abandon-voice-recognition-technology (Zugriff am 29.05.2021).

[18] Vlg. Art. 22 DSGVO

[19] Vlg. Art. 22 DSGVO

[20] Vgl. Bateman, R. (2021). Spotify´s Speech Recognition Patent: Should We Be Worried? ,https://dig.watch/updates/access-now-calls-spotify-abandon-voice-recognition-technology (Zugriff am 29.05.2021).

[21] Vlg. Autor unbekannt (2019). Profiling: Die Herausforderungen durch die DSGVO, SCHÜRMANN, ROSENTHAL, DREYER, https://www.srd-rechtsanwaelte.de/blog/profiling-neuerungen-dsgvo-bdsg. (Zugriff am 29.05.2021).

[22] Vgl. Bateman, R. (2021). Spotify´s Speech Recognition Patent: Should We Be Worried? ,https://dig.watch/updates/access-now-calls-spotify-abandon-voice-recognition-technology (Zugriff am 29.05.2021).

[23] Vgl. Werner, A. (2020) Organizing music, organizing gender: algorithmic culture and SPotify recommendations. The International Journal of Media and Culture.