Media Trends | 25.08.2020
Fusionbase: Externe Daten? Mehr als nur Corona und Daten-Journalismus
Ein Gastbeitrag von Fusionbase
Nie zuvor hat man täglich so viele Tabellen, Karten oder Grafiken in Zeitungen, TV Shows oder Online-Medien gesehen wie seit dem Beginn der Corona-Krise Anfang März dieses Jahres. Überall wird man mit den aktuellsten und genauesten Zahlen über die Lage der Welt informiert. Für Medienhäuser weltweit ist damit etwas Wichtiges in den Fokus gerückt: Daten. Während im gewöhnlichen Daten-Journalismus z.B. nach einer Bundestagswahl einmalig Daten analysiert werden, um anschließend einen Artikel zu schreiben, muss für die aktuellsten Corona Zahlen aufwendig eine Daten-Infrastruktur aufgebaut werden. Diese muss kontinuierlich und zuverlässig die neuesten Veröffentlichungen von verschiedenen Quellen, wie den Websites der Landesgesundheitsämter, herunterladen und strukturieren.
Nur die wenigsten Medienhäuser haben die nötigen Ressourcen, um so eine Infrastruktur in kurzer Zeit aufzubauen. Dabei lohnt sich das weit über Corona hinaus. Es gibt viele externe Daten, die teilweise frei im Netz zu Verfügung stehen und für vielfältige Zwecke wie neue Inhalte, Suchmaschinenoptimierung oder automatisierte Texterstellung verwendet werden können. Regionale Fußballergebnisse, lokale Veranstaltungen, Wahlergebnisse oder neue Statistiken sind nur einige Beispiele für Datenquellen, die Medienhäusern zur Verfügung stehen. Diese Daten werden allgemein als externe Daten bzw. Daten von Drittanbietern bezeichnet.
Externe Daten unterscheiden sich neben ihrem Format und ihrer Struktur vor allem in ihrer Quelle. Die Quellen lassen sich wie folgt kategorisieren:
- Freie Daten (OpenData): Bei OpenData handelt es sich meist um Datensätze, die von Behörden, Universitäten oder Nichtregierungsorganisationen unter einer freien Lizenz veröffentlicht werden. Die Daten dürfen dabei sowohl für private als auch für kommerzielle Zwecke kopiert, bearbeitet und weiterverbreitet werden. Ein Beispiel dafür sind die Daten vom Statistischen Bundesamt.
- Öffentliche Daten: Als öffentliche Daten bezeichnet man Daten, die frei für jeden zugänglich sind. Das kann ein Excel-Datensatz sein oder auch eine Information auf einer Webseite. Juristisch ist jedoch nicht immer ganz eindeutig, wie diese Daten verwendet werden dürfen. Besonders wenn Daten von Webseiten abgezogen werde („crawling“) kann die Gesetzeslage je nach Land sehr unterschiedlich sein.
- Kommerzielle Daten: Auf der anderen Seite des Spektrums befinden sich kommerzielle Daten. Damit sind Daten bezeichnet, die von Unternehmen verkauft werden und gewissen Lizenzbestimmungen unterliegen. Neben klassischen Marktdaten können das Sensor- oder auch Satellitendaten sein. Dieser Bereich wächst durch technische Innovationen besonders stark.
Ziel ist es die Daten so aufzubereiten, dass sie maschinenlesbar sind und in Artikeln visualisiert werden können oder daraus automatisch Texte generiert werden können. Jedoch stehen davor noch einige Hürden.
Die erste Hürde, die es zu nehmen gilt, ist zu verstehen, welche Daten überhaupt zur Verfügung stehen. Häufig ist für die Identifikation der richtigen Quelle ein ausführliche Desktop-Recherche notwendig. Anschließend wird es sehr schnell technisch. Abhängig vom Datentyp, Datenformat oder von der Struktur müssen entsprechende Skripte geschrieben werden, um die Daten herunterzuladen und anzupassen. Wenn die Daten dann noch sehr dynamisch sind und sich regelmäßig aktualisieren (z.B. Corona-Infektionszahlen) müssen diese Skripte automatisiert werden. Der Aufbau einer solchen Daten-Pipeline kann mehrere Tage oder Wochen dauern. Vielen Unternehmen fehlen für genau diese Arbeit die notwendigen Ressourcen und sie müssen deshalb auf die Möglichkeiten, die Ihnen externe Daten bieten, verzichten.
Während ihrer Forschung im Bereich Data Management an der TU München sind Unternehmen aus verschiedenen Industrien mit genau diesem Problem an uns, die Gründer von Fusionbase, herangetreten. Während es bereits verschiedene Lösungen gibt, um Daten aus unternehmensinternen Quellen nutzbar zu machen, gibt es keinen skalierbaren Weg, um auf Daten aus externen Quellen zuzugreifen. Aus dieser Erkenntnis heraus haben wir, Kevin Goßling und Patrick Holl, im Jahr 2019 Fusionbase gegründet. Heute nutzen große DAX30 Konzerne wie BMW sowie regionale Medienhäuser wie der Münchner Merkur Fusionbase, um ihre Produkte mit externen Daten zu verbessern. Grundlage von Fusionbase ist eine skalierbare Infrastruktur, die ermöglicht Daten aus verschiedenen Quellen und Formaten ohne Entwicklungsaufwand anzubinden. Möglich macht das die eigenentwickelte Daten-Onthologie, die Daten automatisch erkennt und anpasst. Die Technologie wird mit einer intuitiven Benutzeroberfläche kombiniert, sodass Nutzer schnell und einfach die richtigen Datensätze finden für ihr Projekt finden. Mit nativen Integrationen in Visualisierungstools können so Daten aus externen Quellen in wenigen Minuten anstelle von Wochen angebunden werden.
Die Möglichkeiten für Medienhäuser aus externen Daten Mehrwert zu generieren ist groß. Aufgrund der informationsgetriebenen Natur von Medienunternehmen bedeuten aktuelle und genaue Daten einen Wettbewerbsvorteil. Die Verwendungsmöglichkeiten von externen Daten sind vielfältig. Daten von den statistischen Ämtern können die Grundlage für hochwertige Inhalte im Daten-Journalismus sein. Demografische Daten können Marketing und Vertrieb optimieren. Echtzeitdaten über regionale Fußball Ergebnisse ermöglichen automatisch generierte Texte zur Suchmaschinenoptimierung.