Microsoft Seeing AI

Das Smartphone ist heutzutage in allen Bereichen ein Helfer. Navigation quer durchs Land, Kommunikation mit den Freunden, Information über die neuesten Nachrichten erhalten, all diese Tätigkeiten sind kaum noch vorstellbar ohne den kleinen Hosentaschencomputer. Damit jede dieser Funktionen uneingeschränkt von jedem benutzt werden kann, versucht man inzwischen das Smartphone so barrierefrei wie möglich aufzubauen. Der deutsche Blinden- und Sehbehindertenverband e.V. definiert Barrierefreiheit folgendermaßen: „Barrierefreiheit bedeutet, dass Gegenstände, Medien und die gebaute Umwelt so gestaltet sind, dass sie von jedem Menschen unabhängig von einer Behinderung uneingeschränkt benutzt werden können. Teilweise wird statt „Barrierefreiheit“ auch der Begriff „Zugänglichkeit“ (abgeleitet vom englischen „accessibility“) verwendet.“¹ Dadurch, dass Smartphones mittlerweile von Menschen mit stark eingeschränktem Sehvermögen verwendet werden können, wurden verschiedene Funktionen entwickelt, die den Alltag erleichtern sollen. Anwendungsbereiche wären beispielsweise das Beschreiben von Personen, Einscannen und Vorlesen von Dokumenten, die Erkennung von Banknoten oder die Beschreibung der Umgebung. Seeing AI von Microsoft kombiniert all diese Funktionen in einer Applikation.

Zahlen und Fakten zum Unternehmen

Über das Unternehmen Microsoft muss man nicht viele Worte verlieren. Der Technologiekonzern ist weltbekannt und stellt seine Software in verschiedenen Bereichen zur Verfügung. Unter Anderem unterstützt Microsoft mit seinen KI-Technologien die Initiative AI for Good um beteiligte Forschungen, Non-Profit Unternehmen und Organisationen voranzubringen. Microsoft fördert aktiv die Programme AI for Earth, AI for Health, AI for Accessibility, AI for Humanitarian Action and AI for Cultural Heritage.²

Zahlen und Fakten zur Anwendung

Seeing AI ist ein Forschungsprojekt von Microsoft und startete ursprünglich unter den Namen Deep Vision. Auch wenn die Funktionen der App noch nicht ausgereift sind, sollen die Nutzer*innen sehr früh daran teilhaben können, um die Entwicklung voranzutreiben. Bei der Entstehung und Verbesserung wirken neben Microsoft auch verschiedene gemeinnützige Organisationen und seheingeschränkte Menschen mit. Veröffentlicht wurde sie das erste Mal am 12. Juli 2017. Inzwischen ist sie in 70 Ländern verfügbar und unterstützt 16 verschiedene Sprachen, u.a. Englisch, Deutsch, Französisch, Spanisch und Japanisch. Bisher wurde Seeing AI nur für das iOS System entwickelt und steht gratis im Appstore zum Download bereit. Voraussetzung für die Nutzung ist ein iPhone ab der Generation 5C/5S.³

Die Nutzerperspektive

Die
Nutzer-
perspektive

Seeing AI ist eine Kamera-App, die Menschen mit eingeschränktem Sehvermögen und Menschen mit Erblindung ermöglichen, das Umfeld wahrzunehmen.
Für die Nutzer*innen kann Seeing AI Barrieren aufheben. Es ist mit der Anwendung möglich den Alltag für Menschen mit Sehbehinderung angenehmer zu gestalten und Aufgaben ohne Hilfe Dritter zu lösen. Seeing AI funktioniert ohne Vorkenntnisse, nach Start der Anwendung ist die Kamera aktiviert und durch Audiofeedback werden die Nutzer*innen durch die Anwendung geleitet. Sobald ein Werkzeug ausgewählt ist, wird die Auswahl auditiv bestätigt. Die Werkzeuge sind im unteren Teil des Bildschirms, auch eine Auswahl dieser über Spracheingabe ist möglich.
Das erste Werkzeug ist „kurzer Text“. Hier richtet man die Kamera auf einen Text, der dann automatisch vorgelesen wird. Grenzen sind hier keine gegeben, die Anwendung erkennt jegliche Art von Text. Schriftarten, Textgröße und Medium des Textes spielen für die Anwendung keine Rolle. Bei umfangreicheren Schriftstücken hilft das Werkzeug Dokument. Die Kamera kann auf gedruckte Seiten gerichtet werden, diese werden erfasst und anschließend mit Voice-Over Befehlen navigierbar gemacht.
Das Werkzeug-Produkt erkennt Dinge durch einen Barcode. Hier werden die Nutzer*innen angeleitet, bis sie nah genug an dem Barcode sind und die App diesen erkennt. Sie bekommen dann gesagt, um was für ein Produkt es sich handelt.
Ein weiteres Grundmerkmal der App ist die Personenerkennung. Diese Funktion bietet Nutzenden die Möglichkeit die Anzahl der Personen, die Entfernung dieser und den Gesichtsausdruck zu erkennen. Sie können genau sehen, wer wo im Raum steht. Die Anwendung liest hier die Personen von links nach rechts vor und nennt die Position. Eine weitere Funktion der Personenerkennung ist die Zuordnung von bekannten Gesichtern, die der KI antrainiert wurden. Auch das Alter wird meistens gut erkannt.
Als nächstes kann Seeing AI Währungen und einzelne Banknoten erkennen. Die Nutzer*innen richten auch hier das Smartphone in Richtung des Geldstücks und lassen dieses identifizieren.
Eine noch experimentelle Funktion lässt Szenen erkennen. Mit diesem Werkzeug wird ein Foto aufgenommen und die Szene im Anschluss beschrieben. Die KI kann viele Situationen beschreiben und gibt eine auditive Rückmeldung.
Das Werkzeug Welt funktioniert wie die vorherige Szenen Erkennung. Dabei können die Nutzer*innen die Welt mit der Kamera erfassen und mit räumlicher Audiowiedergabe die Orte erkunden. Erkannte Objekte werden mit einem Audiobeacon versehen. Dabei wird ein akustisches Signal ausgegeben, welches die Nutzenden zu dem Objekt leitet und den ihnen hilft zuverlässig das Objekt zu finden. Beispielsweise erkennt die App ein Fenster und die Person kann sich Entfernung und Richtung dazu ansagen lassen. Bei der Entfernungsmessung werden weiter entfernte Objekte mit einem leiseren Ton gekennzeichnet, nähere entsprechend lauter.
Das Werkzeug zur Farberkennung funktioniert wie die bisherigen, die Farben werden erkannt und vorgelesen. Hier ist spielt das Licht eine große Rolle, die Nutzer*innen können je nach Tageszeit und Lichtquelle unterschiedliche Ergebnisse für dasselbe Objekt erhalten.
Die Helligkeit wird von der App im letzten Werkzeug erkannt, hier wird ein Ton als Indikator für die Menge an Licht abgespielt. Die Tonhöhe beruht hier auf der Menge an Licht, die von dem Smartphone erkannt wird. Je mehr Licht vorhanden ist, desto höher ist der Ton.⁴


Die technologische Perspektive

Seeing AI arbeitet zusammen mit der Microsoft KI und einer Cloud. Der Durchbruch für die Entstehung des ersten Prototyps waren zwei neue Technologien, die von Microsoft-Forschern entwickelt wurden:
Eine Vision-to-Language-Technologie, welche als die menschlichste der Welt anerkannt wurde. Es handelt sich dabei um die Übersetzung der Sicht des Computers auf Bilder und Videos zur menschlichen Sprache.
Das zu dem Zeitpunkt weltbeste Bildklassifizierungssystem mit einer Fehlerrate von 3,57 Prozent. Mit dieser Technologie können Informationen aus Bildern erhoben werden.
Diese neuen Entwicklungen wurden im nächsten Schritt zusammen mit den Microsoft Cognitive Services kombiniert, eine Sammlung von zahlreichen Algorithmen und Programmierschnittstellen, die einer Software kognitive Fähigkeiten verleiht.⁵ Daraus entstand die erste offizielle Version von Seeing AI im Jahr 2017.⁶
Heute können einige der angebotenen Anwendungen von Seeing AI direkt von einem Gerät ausgeführt werden. Für komplexere Sachverhalte benötigt die App jedoch eine Internetverbindung, um Informationen aus einer Datenbank abzurufen, wie beispielsweise die Funktion Bilder zu analysieren und zu beschreiben. Dabei gibt es die Möglichkeit mehr oder weniger bekannte Personen bei Namen zu identifizieren, welcher der KI auch angelernt werden kann. Demzufolge lässt sich vermuten, dass Microsoft im Hintergrund biometrische Datenbanken zur Gesichtserkennung eingerichtet hat.⁷

Die wirtschaftliche Perspektive

Die Anwendung läuft als Freemium Modell, ohne Kosten und ohne Verkauf der Daten. Es dient alleine der Forschung und folgt dem sozialen Aspekt „AI for Good“ von Microsoft. Das Unternehmen investiert stark in Künstliche Intelligenz und hat das Ziel der Marktführer in diesem Bereich zu werden. Langfristig ist der Konzern daran interessiert KI-Anwendungen für jeden bereitzustellen, diese Sicher zu machen und einen verantwortungsvollen Umgang mit der KI zu führen.⁸ Microsoft zeigt dadurch soziale Verantwortung und gewinnt daraus Wettbewerbsvorteile, beispielsweise in Form einer Image-Steigerung. Dahinter steht ein Erlösmodell der Zukunft. Das Unternehmen will der exklusive Betreiber für Cloud Computing Dienstleistungen werden und die eigene Azure-Plattform dafür ausbauen. Mit dieser Plattform ist Microsoft in der Lage das Wissen für große Kunden aus dem Finanzsektor mit Lösungen und Dienstleistungen zu versorgen. Die Standardisierung von KI-Anwendungen bei Azure kann Microsoft die marktführende Position bringen, dazu trägt auch Seeing AI bei. Indirekt verdient der Konzern Geld über die Standardisierung von Anwendungen im Bereich KI. Das hat zur Folge, dass Microsoft der Provider für jegliche Anwendungen im Bereich KI ist. Man kann daraus schließen, dass der Konzern in allen Bereichen forschen möchte, um genau dort auch Vorreiter zu sein.⁹

Die rechtliche Perspektive

Seeing AI ist bisher noch nicht negativ in der Gesellschaft aufgefallen, jedoch sollte man berücksichtigen, dass die App die Umgebung aufzeichnet und verarbeitet. Ebenso kritisch betrachten sollte man die Gesichtserkennungsfunktion. Mit dieser lassen sich von Grund auf prominente Gesichter identifizieren, aber auch weniger bekannte mit Hilfe einer biometrischen Datenbank anlernen. Biometrische Daten gelten als eine besondere Kategorie personenbezogener Daten, deren Verarbeitung laut Datenschutz-Grundverordnung untersagt ist, sofern nicht ein sogenannter Erlaubnistatbestand vorliegt (Art.9 Abs. 1 & 2 DSGVO). Ist dieser nicht vorhanden, besteht nicht nur seitens der betroffenen Person ein Recht auf Schadensersatz (Art. 82 DSGVO), sondern drohen dem Unternehmen bei einer Verarbeitung Geldbußen von bis zu 20.000.000 Euro oder 4 Prozent des weltweiten erzielten Jahresumsatzes des vorangegangenen Geschäftsjahres (Art. 83 Abs. 5 DSGVO).

Die gesellschaftliche Perspektive

Seeing AI ist die Kombination aus vielen Werkzeugen, die im Kern alle das Leben der Nutzer*innen einfacher machen wollen. Microsoft fördert die Teilhabe von Menschen mit einer Sehbehinderung am alltäglichen Leben. Barrierefreiheit durch künstliche Intelligenz. Da die App noch im Status der Entwicklung steht und einige Funktionen noch in einer experimentellen Funktion, wünschen sich die Entwickler*innen die Teilhabe von möglichst vielen Menschen. Feedback von den Usern ist an allen Stellen erwünscht. Gerade da es nicht offensichtlich sei, was genau die Betroffenen als wichtig erachten, wird die App nicht nur für, sondern zusammen mit Menschen, die eine Sehbehinderung haben entwickelt.¹⁰
Aus ethischer und gesellschaftlicher Sicht ist Seeing AI die konsequente Einhaltung der Definition von KI für Microsoft. Künstliche Intelligenz soll für jeden zugänglich gemacht werden und humanitäre Projekte unterstützen, die die Welt nachhaltig und offenerer gestalten.¹¹
An dieser Stelle darf nicht unerwähnt bleiben, dass durch die KI die Entscheidungen von Menschen beeinflusst werden, da sie auf die zuverlässige Erkennung vertrauen. Gerade für Menschen mit einer Sehbehinderung ist die Validierung der Aussagen von Seeing AI nicht möglich. Hier müssen sich die Nutzenden sprichwörtlich „blind“ auf die Aussagen verlassen, um dann ihre Handlung anzupassen. Das kann wiederum zu Diskriminierung führen durch eine scheinbar neutrale Maschine.¹² Vergessen darf man auch nicht die eigentlichen Nutzer*innen und die Erfahrungen derer, die Seeing AI im alltäglichen Leben als Unterstützung zurate ziehen. Sie berichten von großen Verbesserungen für ihr persönliches Leben.

Fazit

Seeing AI ist eine App, die Menschen mit eingeschränktem Sehvermögen enorm in jeglichen Situationen unterstützt. Die kostenlose Nutzung, abgesehen von der alleinigen Verfügbarkeit auf dem iOS-System, macht sie zusätzlich attraktiver, da viele praktische Funktionen zusammengefasst werden. So müssen die Anwender*innen nicht zwischen verschiedenen Alternativen wechseln und ersparen sich dadurch einen hohen Zeitaufwand. Grundsätzlich trägt sie einen großen Teil zur Barrierefreiheit in der heutigen modernen Welt bei.

Tobias Holz & Max Audring

Coolness Faktor 3/3

Coolness-Faktor: 3/3

Innovationsgrad: 2/3

Mainstream 3/5

Mainstream-Faktor: 3/5

Mainstream-Faktor: 3/5

[1] Vgl. DBSV (o.J.) – Barrierefreiheit:
Online verfügbar unter: https://www.dbsv.org/barrierefreiheit.html
Letzter Abruf: 26.05.2021

[2] Vgl. Microsoft (o.J.) – AI for Good:
Online verfügbar unter: https://www.microsoft.com/en-us/ai/ai-for-good
Letzter Abruf: 27.05.2021

[3] Vgl. Microsoft Garage (o.J) – Seeing AI:
Online verfügbar unter: https://www.microsoft.com/en-us/garage/wall-of-fame/seeing-ai/
Letzter Abruf: 27.05.2021

[4] Vgl. Microsoft – Seeing AI:
Online verfügbar unter: https://www.microsoft.com/de-de/ai/seeing-ai
Letzter Abruf: 27.05.2021

[5] Vgl. Microsoft Azure – Azure Cognitive Services:
Online verfügbar unter: https://azure.microsoft.com/de-de/services/cognitive-services/
Letzter Abruf: 27.05.2021

[6] Vgl. Microsoft – Seeing AI:
Online verfügbar unter: https://www.microsoft.com/de-de/ai/seeing-ai
Letzter Abruf: 27.05.2021

[7] Vgl. Spehr, M. (05.12.2019) – „Der Blindenhund kennt auch die Namen“.

[8] Vgl. Microsoft Azure – KI-Nachrichten und Veranstaltungen:
Online verfügbar unter: https://www.microsoft.com/de-de/ai?activetab=pivot1:primaryr6
Letzter Abruf: 27.05.2021

[9] Vgl. Sawhney, M (24.07.2019) – „The Real Reasons Microsoft Invested In OpenAI“.
Forbes
Online verfügbar unter: https://www.forbes.com/sites/mohanbirsawhney/2019/07/24/the-real-reasons-microsoft-invested-in-openai/?sh=14be5f805962
Letzter Abruf: 27.05.2021

[10] Vgl. Langston, J. (12.10.2020) – „ Shrinking the ‘data desert’: Inside efforts to make AI systems more inclusive of people with disabilities “.
Microsoft
Online verfügbar unter: https://blogs.microsoft.com/ai/shrinking-the-data-desert/
Letzter Abruf: 27.05.2021

[11] Vgl. Microsoft (o.J.) – AI for Good:
Online verfügbar unter: https://www.microsoft.com/en-us/ai/ai-for-good
Letzter Abruf: 27.05.2021

[12] Vgl. Beck S. (2020) Künstliche Intelligenz – ethische und rechtliche Herausforderungen.
In: Mainzer K. (eds) Philosophisches Handbuch Künstliche Intelligenz.
Springer Reference Geisteswissenschaften. Springer VS, Wiesbaden.
Online verfügbar unter: https://doi.org/10.1007/978-3-658-23715-8_29-1