SPK4_Cover.png

Hg. Mirko Schrempp
SharePoint Kompendium
Band 4: Big Data
ISBN: 978-3-86802-642-9

© 2013 Software & Support Media GmbH

Eine Publikation des Windows Developer

windows_developer_4c.eps

in Kooperation mit entwickler.press

entwicklerpress_Logo_1_Zeilig_4c_Kasten.eps

Bibliografische Information Der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen
Nationalbibliografie; detaillierte bibliografische Daten sind im Internet

über http://dnb.ddb.de abrufbar.

Ihr Kontakt zu Verlag und Redaktion:
Software & Support Media GmbH
Windows Developer
Darmstädter Landstraße 108
60598 Frankfurt
Tel: +49 (0)69 630089-0
Fax: +49 (0)69 630089-69
redaktion@windowsdeveloper.de
http://www.windowsdeveloper.de

Redaktion: Mirko Schrempp, Judith Lungstraß
Korrektorat/Schlussredaktion: Nicole Bechtel, Jennifer Diener, Frauke Pesch
Satz: meat* – concept and design

Titelbild: @iStockphoto.com/blindspot

Alle Rechte, auch für Übersetzungen, sind vorbehalten. Reproduktion

jeglicher Art (Fotokopie, Nachdruck, Mikrofilm, Erfassung auf elektronischen Datenträgern oder andere Verfahren) nur mit schriftlicher Genehmigung des Verlags. Jegliche Haftung für die Richtigkeit des gesamten Werks, kann, trotz sorgfältiger Prüfung durch Autor und Verlag, nicht übernommen werden. Die im Kompendium genannten Produkte, Warenzeichen und Firmennamen sind in der Regel durch deren Inhaber geschützt.

schrempp_mirko_sw.png

Liebe Leserinnen und Leser,

selbstverständlich ist SharePoint von Haus aus keine Big-Data-Lösung, dazu sind selbst in SharePoint 2013 die Limits noch zu eng. Für den Umgang mit großen Datenmengen gibt es spezialisierte Systeme wie Hadoop (on Azure), SQL Server usw. Diese sind in der Lage, Peta- und Zetabyte an Daten zu verwalten. Daher ist auch nicht die eigentliche Datenmenge für SharePoint die Angelegenheit, sondern der Umgang damit – und hier kann SharePoint seine Möglichkeiten ausspielen. Daten sind eben nicht nur eine Frage der Technik, sondern vor allem der Analyse und der daraus folgenden Aktivitäten. SharePoint als „klassische“ Zusammenarbeitsplattform ist in der Lage, die Informationen, die durch Big Data vorliegen, weiter zu nutzen. Denn diese müssen gefunden, analysiert, bewertet, dargestellt und aufbereitet werden, um als Grundlage für Entscheidungen und weitergehende Aktionen zu dienen. Wie kann also SharePoint als zentrale Plattform den Big-Data-Trend effektiv nutzen und unterstützen? Dazu finden Sie in dieser Ausgabe einige Vorschläge und Hintergrundinformationen, von der technischen Sicht in Bernd Pehlkes Artikel „SharePoint als Big-Data-Plattform“ über den praktischen Einsatz in „Tiefenanalysiert“ von Rüdiger Gros bis zur neuen Rolle des Data Scientist in „Game Changer“.

In eigener Sache

Sie können das SharePoint Kompendium jetzt auch als iPad- oder Android-Ausgabe lesen. Abonnenten des SharePoint Kompendiums können die Inhalte sofort über ihre Abonnentennummer freischalten und ohne Zusatzkosten nutzen. Aber auch der Kauf einzelner Ausgaben ist in den Apps möglich. Detaillierte Hinweise zu den neuen Apps erhalten Sie unter: http://windowsdeveloper.de/elektronische-versionen-sp/.

Mirko Schrempp
Redakteur SharePoint-Kompendium

Kommentare zum neuen Format, Anregungen zu den Themen und Ideen sind uns immer willkommen unter: redaktion@windowsdeveloper.de

Aufmacher_Gros.png

Markt- und Absatzplanung mit Big Data und SharePoint

Tiefenanalysiert

Rüdiger Gros

Markt- und Absatzplanung mit Big Data und SharePoint – was sich eigentlich recht einfach anhört, ist in der Praxis eine wahre Herkules-Aufgabe. Um Planzahlen aussagekräftig und zuverlässig machen zu können, müssen in mehreren Schritten über Wochen hinweg von qualifizierten Teams vielfältige und auch umfangreiche Datenquellen analysiert, kombiniert und entweder angereichert oder sinnvoll reduziert werden.

Da dieser Planungsprozess wiederkehrend ist, die Datenquellen aber jedes Jahr strukturellen Änderungen unterliegen, benötigt man ein sehr flexibles System. Es muss sowohl in der Lage sein, Daten aus diversen Quellen relativ einfach zu kombinieren als auch eine leicht bedienbare Oberfläche und ein sehr flexibles Berichtswesen zu unterstützen – und es muss trotz jährlich abweichender Strukturen auch noch historische Vergleiche erstellen können. Das hörte sich für uns sehr nach einer SharePoint-Herausforderung für Big Data an.

Die Kundenherausforderung

Der Zweck unserer Datenbank zur Markt- und Absatzplanung ist die Entwicklung einer Softwareunterstützung, die die effektive und effiziente Sammlung von Marktdaten in jedem Land und den dortigen Märkten ermöglicht. Die gesammelten Daten sollen im System durch weitere Daten aus der bestehenden Systemlandschaft (Siebel, SAP, Data Warehouse etc.) sowie aus externen Quellen (Analysten, Web, kommerzielle Reports etc.) angereichert und neu kombiniert werden, um bisher nicht mögliche Datenkonstellationen zur Gewinnung neuer Erkenntnisse zu ermöglichen.

Der Datenerhebungsprozess in den Märkten soll durch eine zentral erstellte und webbasierte Umfrage erfolgen, die in regelmäßigen Intervallen wiederholt und deren Struktur vor allen Dingen kontinuierlich verbessert wird. Da sich der Datenerhebungsprozess in jeder Umfrage verändert, die weltweiten Benutzer aber nicht jedes Mal explizit geschult werden können, muss das Frontend trotz der komplexen Aufgabenstellung selbsterklärend und eingabesicher sein.

Im Bereich der Analysen ist zu berücksichtigen, dass historische Auswertungen möglich bleiben müssen, auch wenn die Struktur der Datenabfragen pro Intervall Veränderungen unterliegt. Auswertungen müssen interaktiv und optisch attraktiv sein. Das Ergebnis einer Marktabfrage sind am Ende komplexe Analysereports für alle Märkte mit detaillierten Aussagen pro Region, Land, Produktbereich und mehr – die optische Aufbereitung ist sehr anspruchsvoll.

Der Kundennutzen

Die automatische Erzeugung von Standardreports ist in jedem Fall ein Kernnutzen des schlanken Datensammlungsansatzes. Aber die eigentliche „Power“ steckt in der Bereitstellung eines interaktiven Analyse-Frontends für Poweruser, das es ermöglicht, Datenquellen und Daten zu kombinieren, um neue Erkenntnisse zu gewinnen. Insbesondere die Unterstützung mehrerer Sprachen und Währungen sowie die Möglichkeit zur währungsbereinigten Darstellung von Reports und Analysen sind eine große Erleichterung im Vergleich zur bisherigen Arbeitsweise. Die Marktabfragewerkzeuge können durch Konfiguration kontinuierlich verbessert werden und tragen so dazu bei, die Datenqualität und mögliche Betrachtungswinkel permanent zu erweitern – und dabei Fakten, persönliche Einschätzungen und Trenddaten in Beziehung zu setzen.

Ein letzter, aber nicht weniger wichtiger Aspekt sind die Flexibilität und die nahtlose Integration der gewählten Systemplattform in die gewohnte Landschaft der End User mit beispielsweise SharePoint 2010, PowerPivot und den Microsoft-Office-Tools. Durch die Verwendung von SharePoint als Business- und Daten-Hub steht auch der zukünftigen Integration weiterer Datenquellen und Prozesse oder auch kollaborativer Anwendungen nichts im Wege.

Umfragenkonzept

Grundsätzlich hat jedes Land einer Region eine eigene Website zur Erfassung und Kontrolle der Daten Ihres Markts. Die Daten werden jeweils in der Vorausschau für festgelegte Zeiträume erfasst, z. B. in Form eines Fünfjahres-Forecasts.

Zur Sicherstellung der Erfassung plausibler Daten ohne vorherige Schulung erhalten die Erfasser in jedem Schritt sinnvolle Referenzinformationen und direkte Rechenergebnisse in der Anzeigemaske. Der Erfassungsprozess kann pausiert werden, und sofern Fragen nicht klar sein sollten, Antworten nicht eindeutig passen oder wenn technische Probleme den Erfassungsprozess behindern sollten, kann der User Hilfe beim Administratorenteam anfordern. In der administrativen Zentrale werden alle Länder und deren Datenhochlauf über zentrale Dashboards widergespiegelt, die es den zentralen Administratoren ermöglichen, den Fortschritt der Datenerfassung pro Land, Region, Produktbereich, Produkt usw. direkt zu erkennen.

Da Umfragen immer rollierende Mehrjahresplanungen sind, starten Surveys stets bei umfassend vorbereiteten Vorjahresdaten sowie zentral befüllten Referenzprognosedaten. Umfrageprozesse sind deshalb keine einfachen Surveys, sondern komplexe Prozesse in fünf evolutionären Schritten, die ein vollständiges Projekt mit Projektmanagement nach sich zieht (Abb. 1).

Die folgenden Abschnitte beschreiben den Ablauf mit dem Ziel, die Zusammenhänge zu erläutern, nicht um detailliert auf Umfragedaten oder fachliche Einzelheiten einzugehen. In den Screenshots wurden Daten mit Hinweis auf die Herkunft der Personen entfernt, Lücken sind also eine Folge der Bildbearbeitung.

gros_bigdata_1.png

Abb. 1: Prozessüberblick

Schritt 1 – Konzeptphase: In der Konzeptphase werden die zu erhebenden Fragen festgelegt, Daten aufbereitet, die Umfrageabwicklung festgelegt, die Laufzeiten abgestimmt, Ressourcenplanungen durchgeführt und vieles mehr. Das Ergebnis dieser Phase ist eine fertig vorbereitete Planungsdatenbank. In dieser Phase werden Daten aus verschiedenen Quellen angereichert, um die befragten Personen in jedem Umfrageschritt mit sinnvollen Kontextdaten zu versorgen. Ein administrativer Bildschirm sieht dann z. B. aus wie in Abbildung 2.

gros_bigdata_2.png

Abb. 2: Als Admin hat man ein komplexes Menü

Schritt 2 – Umfragestart: Über ein technisch recht komplexes Umfragemodul werden die Umfrageteilnehmer eingeladen und interaktiv durch das System geführt. In allen Erfassungsschritten validiert und errechnet die Umfrage für den jeweiligen Teilnehmer direkt die Plausibilisierung seiner Eingaben gegen die Planungsdatenbank. Dabei werden die Daten für jedes Land in seiner Währung und Sprache erfasst. Umfragebildschirme können durch reine Definition nahezu beliebig strukturiert werden, z. B. wie in Abbildung 3.

gros_bigdata_3.png

Abb. 3: Beispielhafte Umfragestruktur mit Tooltips

Oder in Abbildung 4.

gros_bigdata_4.png

Abb. 4: Beispielhafte Umfragestruktur zur Erfassung von Mehrjahreswerten

Ein aktueller Screenshot sieht dann z. B. so aus wie in Abbildung 5.

gros_bigdata_5.png

Abb. 5: Modernerer Beispielumfrage-Screen

Schritt 3 – Umfragenunterstützung: In der Datenzentrale werden die Daten permanent abgeglichen und zur Bereinigung bzw. Klärung an die Umfrageteilnehmer oder Systemeigner zurückgespielt. Da die Datenerfassung in mehreren Währungen und in verschiedenen Zeitzonen erfolgt, ist die zentrale Steuerung und Übersicht des Erfassungshochlaufs ebenso wichtig wie die Pflege von Stichtagswährungskursen zur Umrechnung (Abb. 6).

gros_bigdata_6.png

Abb. 6: Beispielhaftes Dashboard mit Drilldown-Navigation und Ampeln (bei Bedarf)

Schritt 4 – Umfragenabschluss: Der Umfrageprozess wird abgeschlossen, die Daten werden analysiert und zu Reporting-Zwecken mit ergänzenden Daten angereichert. Komplexes, statisches Reporting erfolgt weitgehend automatisiert über Word (OpenXML) und wird dort manuell optisch und inhaltlich feingeschliffen. Aus Datenschutzgründen können wir hier keine echten Report-Samples zeigen.

Schritt 5 – New Insights: Self Service BI Sheets werden mit PowerPivot zentral erstellt und zur Auswertung an die Regionen, Länder und internen Analysten übermittelt. In den grünen Zonen können End User dann einfach Slicer in die Daten ziehen und somit durch erweiterte Datenschnitte analysieren. Abbildung 7 zeigt den Entwurf eines PowerPivot Sheets. Dem End User präsentiert sich das Sheet ohne Modellierungsoptionen im Browser .

gros_bigdata_7.png

Abb. 7: PowerPivot Sample

Reporting-Konzept

Das Reporting ist ein teilautomatisierter Prozess, der Daten per OpenXML-Programmierung aus SharePoint bzw. dem SQL Server in Excel und Word überträgt. Word-Dokumente beinhalten eine Vielzahl an Textvorlagen und eingebetteten Excel Charts, die an Ankern fixiert sind. Vor ihrer Bearbeitung werden deshalb die Daten in den Excel Sheets manuell angereichert, zum Teil künstlich aggregiert und fachlich validiert. Das Charting wird ebenfalls in Excel validiert. Wenn in Excel alle Daten schlüssig sind, beginnt die Arbeit in Word.

Die per OpenXML vorbefüllten Dokumenttemplates enthalten Referenzen auf die aufbereiteten Excel Charts. In Excel angewandte Chart-Formatierungen werden nicht immer zuverlässig in Word übernommen. Da Farben, Skalierung und andere Feinheiten der erzeugten Reports in der Zielgruppe jedoch eine hervorstechende Bedeutung haben, müssen hier auch in der fünften Generation des Produkts noch manuelle Nacharbeiten geleistet werden. Manuelle Tätigkeiten sind in dieser Art von Reports jedoch grundsätzlich erforderlich, da vielfältige per OpenXML übertragene Informationen redaktionell aufbereitet werden müssen und sollen. Weiterhin werden die Dokumente auch um Bilder und grafische Darstellungen angereichert, die sich entweder mit Officemöglichkeiten nicht erzeugen lassen oder die einfach der Illustration dienen. Trotz der genannten Einschränkungen verkürzt dieser Prozess die ehemals benötigten Zeiten enorm, sodass das Ergebnis zwar akademisch nicht perfekt, in der Praxis jedoch sehr wirkungsvoll ist.

Interaktives Data-Mining-Konzept

Abseits des Linien- und Management-Reportings dient das interaktive Datamining dazu, völlig neue Erkenntnisse aus Daten zu gewinnen und solche Daten zu korrelieren, die bisher noch niemand korrelieren konnte, da die Kombination heterogener Datenquellen noch nie so einfach war.

Innerhalb der bestehenden Systeme können gute Auswertungen gemacht werden. Für übergreifende Auswertungen liefern DWH-Lösungen Antworten auf zentral vorbereitete Abfrageszenarien, die die Investition in die Erstellung und Pflege von Cubes rechtfertigen. Eben mal kurz neue Analystendaten, Wetterprognosen, Sportergebnisse oder astrologische Trends gegen die eigenen Daten abzugleichen, ist im DWH aber nicht möglich – und natürlich auch gar nicht gewünscht.

Auch mit PowerPivot nutzen wir vorbereitete Auswertungen, um die erhobenen Umfragedaten detailliert im Rahmen der erlaubten Datenspektren sezieren zu können. Enduser-BI mit PowerPivot bietet nun jedoch auch die Möglichkeit, neue externe Datenquellen oder außergewöhnliche Ideen zur Datenkorrelation in Betracht zu ziehen, ohne dazu umfassende technische Kenntnisse zu erfordern. Was sich für manchen Leser möglicherweise wie alberner Schnickschnack anhört, ist in der Praxis eine enorme Quelle der Erkenntnis. Denn wer ausgetretene Pfade verlassen kann, ohne dazu erst einmal Investitionsprojekte lostreten zu müssen, weil auch „einfach mal ausprobieren“ nicht mehr als Zeit und etwas Rechnerleitung kostet, der wagt Experimente und findet nicht selten sinnvolle Zusammenhänge, die sonst nie entdeckt worden wären. Experimentelle Auswertungen sind im hier beschriebenen Projekt aber keine Spielwiese für jedermann, sondern an die Analysten gerichtet, die auch die Zahlen für die nächsten Umfragen vorbereiten und sich überlegen müssen, welche Fragen die Markterkenntnis noch verfeinern könnten. Auch hier hilft PowerPivot, Ideen in Daten erst einmal theoretisch zu validieren.

Technisches Konzept

Aus verschiedenen Erwägungen heraus haben wir uns entschieden, die Nutzdaten im SQL Server abzulegen. Die administrativen Daten sowie alle Metastrukturen, Workflows und GUI-Themen wurden mit SharePoint 2010 umgesetzt. Folgende Gründe haben uns zu dieser Entscheidung motiviert:

Die Integration mit dem SQL Server aus SharePoint Web Parts heraus ist einfach zu lösen. In Sachen Businesslogik und GUI ist SharePoint sehr flexibel und integrationsfähig. Die gesamte Administration der Anwendung, einschließlich des Managements der Datenbankanlage, der Vorbefüllung, der Jahresabschlüsse etc. läuft über SharePoint. Um die Darstellung der komplexen Umfragen benutzerfreundlich zu gestalten, ohne das Rad neu erfinden zu müssen, haben wir die Controls von Telerik eingesetzt.

Im System unterscheiden wir zwischen statischen und interaktiven Auswertungen. Statische Auswertungen über OpenXML-Programmierung werden im Word-Format präsentiert und dort teilweise für nicht automatisierbare Spezialfunktionen manuell ergänzt. Interaktive Auswertungen erfolgen mitPowerPivot, einem Excel-Plug-in, das seit Excel 2013 ein integraler Bestandteil der Anwendung ist – mit Excel 2010 war es noch optional, aber kostenfrei. Das Besondere an PowerPivot ist nicht nur, dass unbegrenzt viele Tabellen aus nahezu beliebigen Datenquellen in Pivots berücksichtigt werden können. Die besonderen Qualitäten sind vielmehr, dass

Umfragenteilnehmer benötigen große Bildschirme mit Full-HD-Auflösung, einem Browser und Adobe Reader. Administratoren brauchen auf ihren Rechnern zusätzlich Office 2010 und mindestens 32 Gigabyte RAM, um mit PowerPivot ordentlich arbeiten zu können.

Fazit

Die beschriebene Lösung ist in der Zwischenzeit in der fünften Generation im Einsatz und erfährt enorme Akzeptanz bei allen beteiligten Nutzern. Der Start mit der Betaversion von SharePoint 2010 hat sich als gute Wahl bestätigt, und im nächsten Schritt soll die Lösung nach SharePoint 2013 und Office 2013 migriert werden, um ein großes Backlog an Ideen und Wünschen auf dieser Plattform anzugehen. Einige der großen Ziele mit SharePoint 2013 sind die stärkere Integration mit Social Media, Collaboration Features und Big Data aus der Cloud. Und auch hier sind wir zuversichtlich, technologisch den richtigen Unterbau zu haben.

gros_ruediger_sw.pngRüdiger Gros studierte nach seiner Ausbildung zum IT-Kaufmann erst Wirtschaftsinformatik und später BWL und Marketing. Seine Schwerpunktthemen sind Projektmanagement und die erfolgreiche Verbindung von Business und Software in den Prozessfeldern ERP, CRM und ECM. Mit SharePoint arbeitet er seit 2001. Er ist seit 1993 Unternehmer und seit 2005 Vorstand der EFEXCON AG (Schweiz).