DE / EN

Data Scraping for Analytics and AI using R

MKT 624

Verantwortlicher Dozent Prof. Dr. Reto Hofstetter & Prof. Dr. Florian Stahl
Veranstaltungs­art Vorlesung
Leistungs­punkte 4 ECTS
Semesterwochenstunden 4
Sprache Englisch
Registrierung Registrierung erforderlich
Zugelassene Teilnehmer CDSB PhD Studenten, CDSE Doktoranden, Mannheim Master in Business Research (MMBR)

Weitere Informationen

  • Kursbeschreibung

    Für Wissenschaft­ler sind Online-Plattformen wie Twitter, Amazon, LinkedIn, TikTok oder AirBnB von unschätzbarem Wert für die sozial­wissenschaft­liche Forschung und bieten umfangreiche Datensätze, die sich ideal für Analysen und Vorhersage­modelle eignen. Dieser Kurs führt Sie durch den Prozess des Extrahierens, Speicherns und Verfeinerns dieser Daten und stellt sicher, dass Sie für statistische Analysen, prädiktive Modellierung und KI-Anwendungen gerüstet sind. Sie werden die entscheidende Rolle der Daten­wissenschaft in den Sozial­wissenschaften und der KI erkunden und dann R für die Erstellung von Web-Scrapern mit Bibliotheken wie rvest, httr und RSelenium verwenden.

    Die Schulung umfasst fortgeschrittene R-Techniken, die Interpretation von Webformaten wie HTML, CSS, JSON und XML, die Verwendung regulärer Ausdrücke und die Verwaltung verschiedener Datentypen. Sie lernen, wie Sie Daten mit relationalen Datenbanken und (My)SQL speichern und wie Sie Daten effizient über APIs von Plattformen wie Twitter und Yelp extrahieren können. Der Kurs befasst sich auch kurz mit der Extraktion von Merkmalen und Einbettungen aus Texten und Bildern und der Anreicherung Ihrer Datensätze für detaillierte Analysen und die Entwicklung von KI-Modellen.

    Ein besonderer Schwerpunkt liegt darauf, Ihre R-Kenntnisse auf ein fortgeschrittenes Niveau zu bringen und Ihnen die Grundlagen der Programmerstellung beizubringen, von einfachen funktionalen Programmen bis hin zu Shiny-Apps, mit denen Sie interaktive Web­anwendungen erstellen können, die Ihre gescrapten Daten präsentieren. Am Ende dieses Kurses werden Sie in der Lage sein, wichtige Online-Datenquellen zu identifizieren, ausgefeilte Scraper zu entwickeln, Daten für analytische und KI-Anwendungen zu verarbeiten und Ihre Ergebnisse in einer App zu präsentieren. Ihre Lernreise gipfelt in einer Projektpräsentation, die sich auf Ihre Abschlussarbeit oder Ihr Forschungs­projekt bezieht.

    Lern- und Qualifikations­ziele:

    Nach Bestehen des Moduls werden Studierende in der Lage sein,…

    …wichtige Online-Datenquellen zu identifizieren,

    … ausgefeilte Scraper zu entwickeln,

     … Daten für analytische und KI-Anwendungen zu verarbeiten und

    … Ergebnisse in einer App zu präsentieren.

    Voraussetzungen:

    Formal:

    •          Grundlagen der Statistik und/oder empirischen Sozialforschung

    Inhaltlich:

    •          Basis­kenntnisse in R und/oder Python

    •          Basis­kenntnisse in der statistischen Analyse mit R

  • Vorlesung

    Dozent Prof. Dr. Reto Hofstetter & Prof. Dr. Florian Stahl
    Termine Bitte entnehmen Sie die aktuellen Informationen auf Portal2 und ILIAS
    Benotung Mündliche Prüfung (100%) in Form eines Vortrags zum Abschluss des Seminars.
  • Erforderliche Lektüre

    • Benötigte Software (bitte vorgängig installieren): R (neuste Version), RStudio (neuste Version), Java, RSelenium

    Keine Literatur explizit notwendig, Kursinhalte werden auf Folien zur Verfügung gestellt.