Skip to main content

Big Data

Big Data – eine neue Dimension für Informationen

Big Data ist eine Erweiterung vorhandener Begrifflichkeiten der IT auf das Datenaufkommen in einem bestimmten Marktsegment oder im Kontext einer bestimmten Aufgabe. Eine solche Aufgabe könnte zum Beispiel die Erfassung, Verarbeitung und Darstellung aller Informationen sein, die für eine nationale Verkehrsplanung zu einem bestimmten Zeitraum erforderlich sind.

Big Data - Im Prinzip ein Erkenntniskreislauf

Entsprechend der Definition der Experton Group erreichen diese Daten eine neue Dimension, weil sie aus vielen verschiedenen Quellen in sehr kurzer Zeit neu entstehen. Die hohe Anzahl nicht homogener Datenquellen unterscheidet Big Data von traditionellen Datenaufkommen, wie sie beispielsweise für Data Warehouses typisch sein können.

Big Data - Neue Dimension statt Hype

Dabei umfasst der Begriff Big Data keine isolierte Menge strukturierter Informationen wie bei herkömmlichen finanztechnischen oder technisch-wissenschaftlichen Aufgabenstellungen, die bislang große Datenmengen erzeugten. Vielmehr sind Big Data große Mengen strukturierter und unstrukturierter Informationen sowie dateiorientierter und blockorientierter Informationen. Ein Unterscheidungskriterium ist außerdem, dass diese Informationen bei der Entstehung weder hinsichtlich der Relevanz noch hinsichtlich der Gültigkeit geprüft werden.

Die reine Prozessorleistung einzelner Systeme wird nicht mehr die entscheidende Rolle spielen. Mainframes, Supercomputer und Standard-Server ergänzen einander bei der Verarbeitung von Big Data.

Mit Big Data entstehen außerdem Herausforderungen, die mit derzeitigen modernen Storage-Lösungen wie Virtualisierung, Datendeduplizierung oder insgesamt Storage Management nur ansatzweise gelöst werden können, weil die Datenmengen nicht mehr homogen vorliegen, sondern sich strukturiert und unstrukturiert auf verschiedenen Speichersysteme befinden.

Zu den neuen Verfahren gehören neue Parser für die Zerlegung und Analyse von Datenströmen, neue Verteilmechanismen für Berechnungsergebnisse, neue Speicherverfahren zur effizienten Ablage und neue organisatorische Regelungen für die Erhebung, die Verarbeitung und die Speicherung von Informationen.

Die de-facto-Echtzeit-Ausspielung der gewonnenen Informationen ist nur möglich, wenn für die Verarbeitung neue Computing-Technologien, wie sie im Supercomputing und im akademischen Umfeld entstanden sind, herangezogen werden.

Ansätze bilden zum Beispiel das neuronale Computing und Grids aus verschiedenen Klassen von Computersystemen mit verteilten Algorithmen. Auch längst vergessene Verfahren wie „Soups“ – bei denen für organisatorische Entitäten jeweils einzelne unorganisierte Datenbank-Entitäten verwendet werden, auf die ihrerseits verschiedene Applikationen zugreifen – könnten bei der Verarbeitung von Big Data eine Renaissance erleben.