Schulung Big Data – Hadoop, Kafka, Spark

Hadoop ist der Standard im Bereich Big Data. Polystrukturierte Massendaten aus vielen unterschiedlicher Quellen möglichst schnell zu speichern und zu analysieren wird mit dem Hadoop-Ökosystem relativ einfach möglich. Dieser Workshop erleichtert den Einsteig und die Orientierung. Sie erhalten das nötige Hintergrundwissen und Handwerkzeug um schnell in einem Big Data-Projekt mitwirken zu können.

Zielgruppe: Administratoren und Big Data-Entwickler als Einsteiger in Big Data- Projekten. Diese Schulung findet am Standort Münster in einer Kleinstgruppe mit maximal 3 Teilnehmern statt. Alternativ bieten wir Ihnen diese Schulung als In-House Schulung an.

Voraussetzung: Grundkenntnisse in der Administration von IT-Systemen.

Methodik: Die Grundlagen werden in Form einer Schulung vermittelt. Praktische Übungen dienen der Festigung des Erlernten. Die Teilnehmer verwalten ein Big Data-System, analysieren und optimieren das Laufzeitverhalten des Systems und erstellen eigene kleine Applikationen. Gerne verwenden wir hierfür Beispiel- / Demodaten aus Ihrem Unternehmen.

Dauer: 2 Tage

Seminarinhalt Big Data Workshop:

  • Grundlagen und Einführung in das Thema Big Data
  • Nutzen von Big Data-Lösungen
  • Überblick über aktuelle Big-Data-Technologien
  • Big Data-Architekturen
    • Datenintegration
    • Datenhaltung
    • Datenzugriff- und Verarbeitung
    • Lambda- und Kappa-Architekturen
  • Das Hadoop Filesystem (HDFS)
    • Grundlagen
    • Command Line Interface und REST-API
    • Java-API
    • Deployment
  • Hadoop-Konfiguration
  • Dateiformate (Parquet und weitere)
  • No-SQL-Datenbanken
  • In Memory-Datenbanken
  • Spaltenorientierte Datenbanken
  • Cluster-Ressourcen-Management
    • Grundlagen
    • YARN
    • Command line interface
    • Java-API
    • Analyse der Logfiles
  • Ausführungsoptionen / Execution Engines
  • Horizontale und vertikale Skalierung
  • Map & Reduce
  • Tez
  • Apache Spark
    • Architektur
    • Command line interface
    • Horizontale und vertikale Skalierung
    • Analyse der Logfiles
  • Apache Hive
  • Analyse strukturierter Daten mittels Hive SQL
  • Integration von Business Analytics-Lösungen
  • Optimierungen mittels Apache Hive LLAP
  • Überblick über Apache Kafka, Apache Storm, Apache NiFi und weitere Tools
  • Best practices
  • Offene Diskussion 

Sämtliche Übungen werden auf einem Entwicklungs-System als praktische Übungen umgesetzt.