Dieser Artikel wird regelmäßig aktualisiert.
Alle Grafiken sind auf dem Stand des 09.08.2020, das letzte inhaltliche Update gab es am 10.08.2020.

Einleitung

Die andauernde COVID-19 Pandemie bedarf keiner Erklärung, denn die ganze Welt ist momentan schwer davon betroffen. Die hohe Infektiosität des SARS-CoV-2-Erregers und der potenziell schwere Verlauf der Erkrankung stellt die Gesundheitssysteme weltweit auf eine harte Probe. Um jedoch richtige Schritte zur Eindämmung der Pandemie zu gehen, ist die Analyse der Fallzahlen ein unabdingbarer Schritt.

Viele von uns haben es sich mittlerweile zur Gewohnheit gemacht, mindestens einmal täglich auf den aktuellen Stand der Fallzahlen zu schauen. Die gute Verfügbarkeit der Daten und neuer Visualisierungstechnologien macht es uns möglich, Graphen in kürzester Zeit auf den neusten Stand zu bringen. Vor allem die Daten der Johns Hopkins University und des Robert Koch Institutes werden dafür intensiv verwendet. Auf verschiedenen Plattformen, z.B. Kaggle.com, stehen viele Daten für jedermann zur Verfügung, in der Hoffnung, dass die große weltweite Community an Data Scientists aus den Daten wertvolle Informationen und Vorhersagen generiert.

Wir von der StatSoft Europe GmbH bieten R-Trainings an und haben die jetzt anfallenden Daten ebenfalls genutzt, um Erkenntnisse durch Visualisierung zu erzeugen. Hierfür haben wir die Open-Source Statistiksoftware R verwendet und den hierfür verwendeten Code offengelegt, um interessierten Analysten eine kostenlose Hilfe für die Visualisierung mit R bereitzustellen. Es wurden die Daten der Johns Hopkins University verwendet (heruntergeladen von diesem Kaggle Link). Die Ursprungsdaten, wie sie in Kaggle verwendet werden, stammen aus dem Git Repository der Johns Hopkins University.

An dieser Stelle möchten wir einmal die Chance nutzen, Sie auf verschiedene Hilfsplattformen für die Corona-Krise aufmerksam zu machen. Vielleich sind Sie selbst betroffen oder kennen Personen, die besonders bedroht sind und zur eigenen Sicherheit zu Hause bleiben sollten. Um diesen Menschen zu helfen, wurden viele Hilfsplattformen eingerichtet, um beispielsweise Einkäufe für Betroffene zu übernehmen. Auf dieser Seite gibt es Links zu solchen Hilfsplattformen, bei denen Sie sich als Betroffene oder als potenzielle Helfer registrieren können. Denken Sie bitte auch daran, dass besonders Tierheime in dieser Zeit einen großen Zulauf an Haustieren haben, deren Besitzer aufgrund der Krankheit nicht mehr in der Lage sind, sich um diese zu kümmern. Durch Futter- oder Geldspenden und können Sie diese unterstützen.

Empfohlene Literatur

Für die Datenanalyse und Visualisierung können wir die hervorragenden Bücher R for Data Science sowie Hands on Programming with R von Hadley Wickham und Garret Grolemund wärmstens empfehlen. Beide Autoren sind übrigens auch die Urheber fast aller Pakete, die wir in diesem Projekt benötigen.

Die aktuelle Situation

In diesem Abschnitt möchten wir Ihnen anhand verschiedener Grafiken zeigen, wie sich die COVID-19 Pandemie in der Welt ausbreitet. Der Stand des Datensatzes ist der 09.08.2020. Im nächsten Abschnitt weiter unten zeigen wir dann, wie wir diese Grafiken mit R erzeugt haben.

Weltweit

In der folgenden Grafik sind die bestätigten Fallzahlen aller Staaten, aufgeteilt in akute Erkrankungen, Genesungen und Todesfälle, dargestellt, die am 09.08.2020 mindestens 50000 bestätigte Fälle registriert hatten.

Die folgende Grafik zeigt den Anstieg der bestätigten Fälle auf einer logarithmierten Skala in Abhängigkeit der vergangenen Tage seit dem 100. registrierten Fall. Auf diese Weise lässt sich gut erkennen, wie schnell sich COVID-19 in den entsprechenden Ländern ausgebreitet hat. Es sind nur diejenigen sieben Staaten abgebildet, die bis zum 09.08.2020 die meisten Fälle registriert hatten, sowie Südkorea, die durch ihre schnelle Reaktionszeit und hohe Testzahlen eine starke Eindämmung des Ausbruchs erzielen konnten. Durch die Log-Skala ist es möglich, den Zuwachs an bestätigten Fällen unabhängigkeit von deren Größenordnung zwischen den verschiedenen Ländern zu unterscheiden.

China, Europa und USA

Die folgende Grafik können wir erkennen, wie sich die Fallzahlen in China, Europa, den USA und allen anderen Ländern (Sonstige) entwickelt hat. Es wird deutlich erkennbar, wie schnell China den Ausbruch durch sehr striktes Durchgreifen in den Griff bekommen konnte. Etwa fünf Wochen nachdem die Fallzahlen in China ein Plateau erreicht hatten, waren die Fallzahlen in Europa bereits höher als die in China. Nur zwei weitere Wochen später gab es in Europa bereits fünfmal so viele Fälle wie in China. Die USA zeigen ebenfalls einen rasanten Anstieg, der um etwa eineinhalb Wochen verzögert von Europa stattfindet. Somit sind Europa und die USA die neuen Epizentren der COVID-19 Pandemie.

Die folgende Grafik zeigt den täglichen Zuwachs an Fallzahlen in China, Europa, den USA und in allen anderen Ländern. Hier wird deutlich erkennbar, wie schnell die chinesische Regierung reagiert und zu drastischen Mitteln gegriffen hat, denn schon am 23. Januar wurde mit der Quarantäne von Hubei begonnen, also zu einem Zeitpunkt, als es nur 639 Bestätigte Fälle und 18 Todesfälle in China gab. Dennoch stiegen trotz der Quarantäne die bestätigten Fälle in China auf 84668 an, darunter waren 4634 Todesfälle (Stand 09.08.2020). Das verdeutlicht sehr stark, dass eine starke Einschränkung der Reise- und Bewegungsfreiheit (so schmerzhaft diese auch sein mag) a) die weitere Verbreitung effektiv eindämmen kann, b) eher zu früh als zu spät ausgeführt werden sollte und c) die Kurve nur zeitverzögert abflachen kann.

In Europa wurde am 04.04.2020 der bisher höchste tägliche Zuwachs von 54896 neuen Fällen verzeichnet, in den USA lag der höchste Anstieg bei 78310 Fällen am 16.07.2020. In China lag der höchste Anstieg dagegen bei nur 15133 Fällen am 13.02.2020.

In der folgenden Grafik ist die Summe an akuten Erkrankungen aller hier betrachteten Regionen für den jeweiligen Zeitraum dargestellt, die Breite des farbigen Bandes symbolisert dabei den Anteil der Erkrankungen, die in der jeweiligen Region stattfanden. Zuerst begann die Ausbreitung in China. Diese setzte sich dann in Europa und anderen Ländern weiter fort und ging zeitgleich in China wieder zurück. Etwa zwei Wochen nach dem Ausbruch in Europa breitete sich die Erkankung dann auch in den Vereinigten Staaten aus. Die Vereinigten Staaten sind das Land mit der höchsten Zahl an akuten Erkankungen.

In der folgenden Darstellung sind die bestätigten Fälle, Todesfälle und akuten Erkrankungen für die verschiedenen Regionen am 09.08.2020 dargestellt.

Europa

In der folgenden Grafik sehen wir die bestätigten Fälle aller europäischen Staaten, in denen am 30.03.2020 mindestens 5000 bestätigte Fälle registriert wurden. Die Breite des jeweiligen Bandes zeigt dabei, welcher Anteil an bestätigten Fällen Staaten dem jeweiligen Staat zuzuordnen ist und wie sich dieser Anteil über die Zeit verändert. Daraus wird ersichtlich, dass Italien als erstes Land eine hohe Zahl an bestätigten Fällen registrierte. Wenige Wochen später stiegen dann die Infektionszahlen auch in umliegenden europäischen Staaten stark an. Die meisten Infektionen wurden bis zum 09.08.2020 in Italien, Spanien und Deutschland und Frankreich erfasst.

In der folgenden Grafik sehen wir die Todesfälle aller europäischen Staaten, in denen am 30.03.2020 mindestens 5000 bestätigte Fälle registriert wurden.. Die Zahl der Todesfälle in Deutschland ist verglichen mit der relativ hohen Zahl bestätigter Fälle noch sehr gering.

Die folgende Grafik zeigt die Anzahl der Genesungen innerhalb der verschiedenen europäischen Staaten. Die Zahl der Genesungen ist in Spanien, Italien und Deutschland am höchsten.

Die folgende Grafik zeigt den Verlauf der akuten Erkrankungen innerhalb der europäischen Staaten.

Deutschland

In der folgenden Grafik sind die akuten Erkrankungen, Todesfälle und Genesungen in Deutschland dargestellt.

In der folgenden Grafik sehen wir den täglichen prozentualen Anstieg bestätigter Fälle in Deutschland. Die höchsten täglichen Anstiege (> 50%) wurden registriert, als es in Deutschland noch weniger als 5000 Fälle gab. Anschließend lagen die täglichen Anstiege für 7 Tage zwischen 25 und 35 % und sanken für die folgenden 8 Tage weiter auf 10-17% ab. Seit dem 29.03.2020 blieben die täglichen Anstiege unter der 10%-Grenze.

Diese Absenkung der neuen Infektionen seit dem 21.03.2020 war sehr wichtig, denn ansonsten wären die Infektionszahlen in Deutschland schon am 30.03.2020 mehr als dreimal so hoch, als wenn keine Absenkung des täglichen prozentualen Zuwachses erreicht worden wäre. Die folgende Grafik zeigt die tatsächliche Entwicklung (hellblaue Balken) der Fallzahlen in Deutschland. Die rote Linie simuliert die Fallzahlen, die sich ergeben hätten, wenn sich der tägliche Anstieg von 25-35%, wie er vom 14.03.2020 - 20.03.2020 stattgefunden hat, fortgesetzt hätte. Am 30.03.2020 wären demnach schon 229108 infizierte aufgetreten. Tatsächlich wurden aber aufgrund dieser Absenkung nur 66885 Fälle registriert.

Der Code

In diesem Abschnitt zeigen wir Ihnen, wie wir die Daten aufbereitet haben, um die oben gezeigten Grafiken zu erzeugen.

Pakete und Daten

Für dieses Projekt benötigen wir die Pakete tidyverse und lubridate sowie scales und RColorBrewer. Diese müssen zuvor installiert worden sein.

library(tidyverse)
library(lubridate)
library(scales)
library(RColorBrewer)
library(countrycode)

Jetzt laden wir den Datensatz (heruntergeladen von diesem Kaggle Link) mit der Funktion read_csv():

data <- read_csv("data/covid_19_data.csv")
Parsed with column specification:
cols(
  SNo = col_double(),
  ObservationDate = col_character(),
  `Province/State` = col_character(),
  `Country/Region` = col_character(),
  `Last Update` = col_character(),
  Confirmed = col_double(),
  Deaths = col_double(),
  Recovered = col_double()
)

Datenbereinigung

Jetzt ändern wir das Format der Variable ObservationDate in eine gültige Form mittels lubridate::mdy() und speichern diese in der neuen Variable Datum ab mittels Funktion dplyr::mutate(). Anschließend gruppieren wir die Daten nach Datum und Country/Region und summieren die bestätigten Fälle (Confirmed) innerhalb jeder Gruppe mithilfe der Funktion summarize(). Dadurch erhalten wir die Summen aller Fälle innerhalb eines Landes und Tages. Das machen wir hauptsächlich deswegen, weil beispielsweise alle Provinzen Chinas oder alle Staaten der USA als Einzeleinträge vorhanden sind, wir aber die Fallzahlen für das ganze Land betrachten wollen. Anschließend sortieren wir nach der Variable Datum und Bestätigte Fälle, um zu sehen, welches das aktuellste Datum unseres Datensatzes ist und in welchen Ländern die höchsten Fallzahlen registriert wurden:

data <- data %>% 
  mutate(Datum = mdy(ObservationDate)) %>% 
  group_by(Datum, `Country/Region`) %>% 
  summarize(`Bestätigte Fälle` = sum(Confirmed),
            `Todesfälle` = sum(Deaths),
            `Genesungen` = sum(Recovered)) %>% 
  arrange(desc(Datum), desc(`Bestätigte Fälle`))
data

Später möchten wir den Verlauf in China mit ganz Europa vergleichen. Hierfür benötigen wir allerdings eine Liste der europäischen Länder, wenn wir diese nicht manuell zuweisen wollen, denn die Kontinentzugehörigkeit ist nicht im Datensatz vorhanden. Hierbei hilft uns das Paket countrycode, welches eine Liste aller Länder der Erde und die dazugehörigen Ländercodes sowie Kontinente beinhaltet. Mit der Funktion countrycode() erstellen wir eine neue Variable namens continent. Gleichzeitig können wir die Chance nutzen, um mit der countrycode Funktion die englischen Ländernamen in deutsche zu überführen. Diese Variable nennen wir dann Staat:

library(countrycode)
#data3
data <- data %>% 
  mutate(continent = countrycode(`Country/Region`,
                                 origin = "country.name",
                                 destination = "continent"),
         Staat = countrycode(`Country/Region`,
                             origin = "country.name",
                             destination = "country.name.de"))

Nun erstellen wir eine weitere Variable, die wir Region nennen. In dieser Variable werden wir die Regionen Europa, China, Vereinigte Staaten und Sonstige definieren. Dies tun wir mithilfe der base::ifelse() Funktion innerhalb der Funktion dplyr::mutate().

Ausgeschrieben bewirkt der folgende Code: Wenn die Variable continent gleich Europeist, soll die Variable Region auf Europe gesetzt werden; ansonsten auf China, wenn die Variable Country/Region gleich Mainland China ist; ansonsten auf USA, wenn die Variable Country/Region gleich US ist; ansonsten soll die Variable Region auf Sonstige gesetzt werden.

Somit können wir anhand zweier Variablen (continent und Country/Region) eine Gruppierung in die Regionen Europa, China, Vereinigte Staaten und Sonstige vornehmen:

#data4
data <- data %>% 
  mutate(Region = ifelse(continent == "Europe", "Europa",
                                ifelse(`Country/Region` == "Mainland China",
                                       "China",
                                       ifelse(`Country/Region` == "US",
                                              "USA",
                                              "Sonstige"))))

Nun können wir unseren Datensatz einmal ansehen, um zu prüfen, ob die neue Variablen Region, continent und Staat korrekt erstellt wurden:

arrange(data, desc(Datum), desc(`Bestätigte Fälle`))

Als nächstes erstellen wir die neue Variable Akute Erkrankungen, die sich aus den anderen Variablen folgendermaßen errechnen lässt:

data <- mutate(data, `Akute Erkrankungen` = `Bestätigte Fälle` - `Todesfälle` - `Genesungen`)
data

Nun ist die Grobarbeit abgeschlossen und wir können die Daten jetzt weiterverwenden, um die Grafiken zu erzeugen.

Weltweit

Für unsere erste Grafik müssen wir zuerst den Datensatz nach dem aktuellsten Datum und der Anzahl bestätigter Fälle von mindestens 50000 filtern. Anschließend überführen wir mit pivot_longer() die Tabelle in die lange Form und erstellen als Fallkategorie die Variable Kategorie und sammeln die Fallzahlen in der Variable Fälle. Nun sieht der veränderte Datensatz so aus:

Laender_50000 <- data %>% 
  filter(Datum == strftime(max(data$Datum)),
         `Bestätigte Fälle` >= 50000) %>%  
  pivot_longer(cols = c(`Akute Erkrankungen`, 
                        `Todesfälle`, 
                        `Genesungen`), 
               names_to = "Kategorie", 
               values_to = "Fälle")

head(Laender_50000)

Jetzt können wir mit ggplot() und geom_col() ein Balkendiagramm erzeugen. Zuerst definieren wir die X-Achse als Staat und die Y-Achse als Anzahl der Fälle, danach tauschen wir die beiden Achsen mit dem Befehl coord_flip(), so dass die Y-Achse zur X-Achse wird und umgekehrt. Nun müssen wir als letzten Schritt die Balken nach der Gesamtzahl bestätigter Fälle sortieren. Da wir die Variable Bestätigte Fälle nicht in die lange Form überführt haben, steht uns diese Variable noch zur Verfügung und wir können somit das Balkendiagramm mit reorder() nach der Variable Bestätigte Fälle sortieren.

g1 <- ggplot(data = Laender_50000) +
  geom_col(mapping = aes(x = reorder(Staat, 
                                     `Bestätigte Fälle`), 
                         y = `Fälle`, 
                         fill = Kategorie)) +
  coord_flip() +
  theme(legend.position = c(0.8, 0.3),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) +
  scale_y_continuous(labels = number) +
  labs(x = "Staat", 
       y = "Fälle", 
       title = paste("Anzahl bestätigter Fälle je Staat, Stand ", 
                     stand_datensatz,
                     sep=""))
g1

Die folgende Grafik zu erstellen ist ein wenig komplizierter. Zuerst müssen wir alle Fälle des Originaldatensatzes nach den Zeilen filtern, in denen die Bestätigte Fälle größer oder gleich 100 sind. Danach gruppieren wir nach Staat und berechnen das Minimum der bestätigten Fälle mit summarize(). Somit erhalten wir für jeden Staat genau die Zeile, in der zum ersten Mal die Grenze von 100 Fällen überschritten worden ist. Den Wert von Tage seit dem 100. Fall setzen wir für diesen Tag auf 0 mit mutate().

weltweit_log_1 <- data %>%
  arrange(Datum) %>% 
  filter(`Bestätigte Fälle` >=100) %>% 
  group_by(Staat) %>% 
  summarize(`Bestätigte Fälle` = min(`Bestätigte Fälle`)) %>% 
  mutate(`Tage seit dem 100. Fall` = 0)

Im nächsten Schritt fügen wir unseren soeben erstellten Datensatz zusammen mit dem Ursprungsdatensatz mittels der Funktion full_join() und nennen das neue Objekt weltweit_log_2. Nun filtern wir erneut nach den Zeilen, in denen mehr oder genau 100 Bestätigte Fälle aufgetreten sind, und heben die vorherige Gruppierung auf mit ungroup() (dieser Schritt ist notwendig, damit cumsum() später korrekt funktioniert). Jetzt sortieren wir nach dem Datum und setzen alle NAs der Variable Tage seit dem 100. Fall auf 1. Jetzt gruppieren wir nach Staat und modifizieren die Variable Tage seit dem 100. Fall als kumulative Summe von sich selbst. Anschließend sortieren wir nach Staat und Datum.

weltweit_log_2 <- full_join(data,weltweit_log_1) %>% 
  filter(`Bestätigte Fälle` >= 100) %>% 
  ungroup(weltweit_log_2) %>% 
  arrange(Datum) %>%  
  mutate(`Tage seit dem 100. Fall` = ifelse(is.na(`Tage seit dem 100. Fall`) == T, 1, 0)) %>% 
  group_by(Staat) %>% 
  mutate(`Tage seit dem 100. Fall` = cumsum(`Tage seit dem 100. Fall`)) %>% 
  arrange(Staat, Datum)
Joining, by = c("Best攼㸴tigte F攼㸴lle", "Staat")

Als nächstes rechnen wir zum besseren Vergleich die Fallzahlen aus, die sich bei einer Verdoppelungszeit von 2, 7, 14 und 60 Tagen ergeben würden. Hierfür erstellen wir einen neuen Datensatz in dem die Variable Tage seit dem 100. Fall von 1-60 reicht. Nun erstellen wir vier neue Variablen (2 Tage, 7 Tage, usw.) und errechnen mit der entsprechenden Formel die Fallzahlen aus, die sich bei der entsprechenden Verdoppelungszeit ergeben würden. Nun überführen wir diesen Datensatz in die lange Form. Zum Schluss filtern wir noch, um die gleich im Plot dargestellten Linien nicht zu weit aus dem Grafikbereich herausragen zu lassen (nur ein Schönheitsfaktor).

VDZ <- tibble(`Tage seit dem 100. Fall` = seq(1:60)) %>% 
  mutate(`2 Tage` = 100*(2^(1/2))^`Tage seit dem 100. Fall`,
         `7 Tage` = 100*(2^(1/7))^`Tage seit dem 100. Fall`,
         `14 Tage` = 100*(2^(1/14))^`Tage seit dem 100. Fall`,
         `60 Tage` = 100*(2^(1/60))^`Tage seit dem 100. Fall`,) %>% 
  pivot_longer(cols = c("2 Tage", "7 Tage", "14 Tage", "60 Tage"), names_to = "Verdoppelungszeit", values_to = "Fälle") %>% 
  mutate(Verdoppelungszeit = as_factor(Verdoppelungszeit)) %>% 
  filter(`Fälle` <= 4000000 & `Tage seit dem 100. Fall` <= 50)

Jetzt können wir Bestätigte Fälle gegen Tage seit dem 100. Fall plotten mit ggplot(). Dadurch, dass wir die Option scale_y_continuous(trans="log10") gewählt haben, wird die Y-Achse als Log-Skala dargestellt. Auf diese Weise ist es einfacher, das Wachstum der bestätigten Fälle zwischen verschiedenen Staaten zu vergleichen. Zusätzlich plotten wir die Vergleichslinien der verschiedenen Verdoppelungszeiten aus dem eben erstellten Datensatz VDZ und geben als Ästhetik linetype an.

log_cases <- filter(weltweit_log_2, Staat %in% (c("China", "Deutschland", "Spanien", "Frankreich", "Italien", "Vereinigte Staaten", "Iran", "Korea, Republik von")))

g2 <- ggplot(data = log_cases) +
  geom_line(mapping = aes(x = `Tage seit dem 100. Fall`, y = `Bestätigte Fälle`, color = Staat), size = 1.5) +
  geom_line(data = VDZ, mapping = aes(x = `Tage seit dem 100. Fall`, y = `Fälle`, linetype = Verdoppelungszeit), color = "royalblue4") +
  scale_y_continuous(trans='log10', labels = number) +
  labs(title = paste("Bestätigte Fälle (Log) in Abh. der Tage seit d. 100. Fall, Stand ", 
                     stand_datensatz,
                     sep="")) +
  theme(legend.position = c(0.85, 0.5),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) +
    scale_color_brewer(palette="Set3") +
  guides(linetype = guide_legend(order = 1), color = guide_legend(order = 2))
g2

China, Europa und USA

Jetzt gruppieren wir unseren Datensatz nach Datum und Region und summieren die Variablen Bestätigte Fälle, Todesfälle und Genesungen auf mit sum(), um die Summen aller Fälle innerhalb jeden Tages und innerhalb jeder Region zu erhalten. Alle fehlenden Werte werden anschließend mit filter() und !is.na() herausgeworfen. Nun gruppieren wir nur nach Region und erstellen mit mutate() die Variable Zuwachs bestätigter Fälle je Region mit der lag() Funktion sowie die Variable Akute Erkrankungen je Region:

Regionen <- data %>% 
  group_by(Datum, Region) %>% 
  summarize(`Bestätigte Fälle je Region` = sum(`Bestätigte Fälle`),
            `Todesfälle je Region` = sum(`Todesfälle`),
            `Genesungen je Region` = sum(`Genesungen`)) %>% 
  filter(!is.na(Region)) %>% 
  group_by(Region) %>% 
  mutate(`Zuwachs bestätigter Fälle je Region` = `Bestätigte Fälle je Region` - lag(`Bestätigte Fälle je Region`),
         `Akute Erkrankungen je Region` = `Bestätigte Fälle je Region` - `Genesungen je Region` - `Todesfälle je Region`)

head(arrange(Regionen, desc(Datum), desc(`Bestätigte Fälle je Region`)))

Nun können wir die bestätigten Fälle für China, Europa, US und andere plotten mit ggplot(). Hierbei ist die X-Achse Datum und die Y-Achse die Summe der bestätigten Fälle je Region (Bestätigte Fälle je Region). Bemerkung: Die sogenannten backticks sind notwendig, wenn Variablennamen Sonderzeichen (hier Leerzeichen und Umlaute in der Variable Bestätigte Fälle je Region) aufweisen und dennoch normal weiterverwendet werden sollen.

g3a <- ggplot(data = Regionen) +
  geom_line(mapping = aes(x = Datum, 
                          y = `Bestätigte Fälle je Region`, 
                          color = Region), 
            size = 1) +
  labs(x = "Datum", 
       y = "Bestätigte Fälle je Region",
       title = paste("Bestätigte Fälle je Region, Stand ",
                     stand_datensatz,
                     sep="")) +
  scale_y_continuous(labels = number) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  theme(legend.position = c(0.13, 0.6),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5))
g3a

Wenn wir die weiteren zwei Variablen (Todesfälle je Region und Genesungen je Region) zusätzlich im selben Plot darstellen wollen, müssen wir zunächst den Datensatz in die Lange Form übertragen mit tidyr::pivot_longer(). Hierbei erzeugen wir zwei neue Variablen, die wir Kategorie und Fälle nennen. Die Variable Kategorie enthält Information, ob es sich um einen bestätigten Fall, einen Todesfall oder einen geheilten Fall handelt. Die Variable Fälle enthält die Zählwerte, die vorher unter den drei zusammengefügten Variablen standen.

Regionen_long <- Regionen %>% 
  pivot_longer(cols = c(`Bestätigte Fälle je Region`,
                        `Todesfälle je Region`,
                        `Genesungen je Region`,
                        `Zuwachs bestätigter Fälle je Region`,
                        `Akute Erkrankungen je Region`),
               names_to = "Kategorie",
               values_to = "Fälle")
head(Regionen_long)

Anschließend fügen wir die neue Variable Kategorie als aesthetics in ggplot() hinzu (hier als linetype). Somit verändert sich der Linientyp in Abhängigkeit der Variable Kategorie. Als Y-Achse wählen wir die neu erstellte Variable Fälle, die die gezählten Werte beinhaltet. Da die oben verwendete Funktion countrycode() nicht alle Länder zuweisen konnte und NAs erzeugt hat, entfernen wir diese im selben Schritt mit drop_na(), da diese sonst auch in der Grafik abgebildet werden würden (Alternativ könnten wir auch die fehlenden Länder manuell noch dem richtigen Kontinenten zuweisen). Mit dem Argument scale_x_date ändern wir das Datumsformat der X-Achse und setzen es auf Wochenschritte, mit dem Argument theme() positionieren wir die Legende in den Plot und setzen den Hintergrund transparent.

g3b <- ggplot(data = filter(Regionen_long, 
                     Kategorie %in% c("Bestätigte Fälle je Region",
                                      "Todesfälle je Region",
                                      "Genesungen je Region"))) +
  geom_line(mapping = aes(x = Datum, 
                          y = `Fälle`, 
                          color = Region, 
                          linetype = Kategorie), 
            size = 1)+
  labs(x = "Datum", 
       y = "Fälle", 
       title = paste("Fallzahlen nach Kategorie und Region, Stand ", 
                                               stand_datensatz,
                                               sep="")) +
   scale_y_continuous(labels = number) +
  scale_x_date(date_breaks = "2 week", 
               date_labels = "%d.%m") +
  theme(legend.position = c(0.2, 0.6),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5))
g3b

Nun können wir den täglichen Zuwachs an Fallzahlen plotten. Zusätzlich fügen wir mit geom_vline() Markierungen und mit geom_label() Labels an den Stellen hinzu, an denen Ereignisse stattgefunden haben, die sich auf Ausbreitung der Erkrankung auswirken können, nämlich die Zeitpunkte, an denen verschiedene Länder mit den Quarantänemaßnahmen begonnen haben. China hat beispielsweise schon am 23. Januar mit der Quarantäne von Hubei begonnen, also zu einem Zeitpunkt, als es nur 639 Bestätigte Fälle je Region und 18 Todesfälle je Region in China gab. Italien hat mit der Ausgangssperre am 9. März begonnen.

g4 <- ggplot(data = Regionen) +
  geom_line(mapping = aes(x = Datum, 
                          y = `Zuwachs bestätigter Fälle je Region`, 
                          color = Region), size = 1) +
  geom_vline(xintercept = as.Date("2020-01-23")) +
  geom_label(label="Hubei \n Quarantäne", y=15000, x=as.Date("2020-01-24")+1)+
  geom_vline(xintercept = as.Date("2020-03-09"), color = "black") +
  geom_label(label="Italien \n Ausgangssperre", y=18000, x=as.Date("2020-03-09")) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +  
  theme(legend.position = c(0.2, 0.8),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) +
  labs(title = paste("Täglicher Anstieg an Fällen je Region, Stand ", 
                                               stand_datensatz,
                                               sep=""))
g4

Nun wollen wir die akuten Erkrankungen als Flächenplot über die Zeit darstellen. Einen Flächenplot erstellt man mit geom_area innerhalb von ggplot().

g5 <- ggplot(data = Regionen) +
  geom_area(mapping = aes(x = Datum, 
                          y = `Akute Erkrankungen je Region`, 
                          fill = Region), 
            size = 1) +
  labs(x = "Datum", 
       y = "Akute COVID-19 Fälle", 
       title = paste("Akute Erkrankungen je Region, Stand ",
                    stand_datensatz,
                    sep="")) +
  scale_y_continuous(labels = number) +
  scale_x_date(date_breaks = "2 week", 
               date_labels = "%d.%m") +
  theme(legend.position = c(0.1, 0.8),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) +
  scale_fill_brewer(palette="Set3")
g5

Wir können auch in ggplot() mit geom_col() ein Balkendiagramm erzeugen, in dem die X-Achse die Region, die Y-Achse die Anzahl der Fälle und die Farbe (fill) die Region der Variablen darstellt. Durch den Befehl facet_wrap(~Kategorie) wird als weitere Dimension für jede im Datensatz vorhandene Kategorie eine eigene Abbildung erstellt. Hierzu müssen wir jedoch zuerst eine Variable erstellen, die die Stufen der Variable Kategorie enthalten soll, die wir verwenden möchten (wir wollen nicht alle Stufen aus Kategorie abbilden):

ausgewaehlte_kategorie <- c("Akute Erkrankungen je Region",
                            "Genesungen je Region",
                            "Todesfälle je Region")
g6 <- ggplot(data = filter(Regionen_long, 
                     Datum %in% max(Regionen_long$Datum),
                     Kategorie %in% ausgewaehlte_kategorie)
       ) +
  geom_col(mapping = aes(x = Region, 
                         y = `Fälle`, 
                         fill = Region), 
           position = "dodge") +
  facet_wrap(~Kategorie, ncol=6) +
  theme(axis.text.x = element_text(angle = 90)) +
  scale_y_continuous(labels = number) +
  labs(title = paste("Fälle je Region und Fallkategorie, Stand ",
                    stand_datensatz,
                    sep="")) +
  theme(legend.position = "top",
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5))
g6

Europa

In dieser Grafik wurden die Fallzahlen aller europäischen Bestätigte Fälleen dargestellt, in denen am 30.03.2020 mindestens 5000 bestätigte Fälle registriert wurden. Hierfür müssen wir also den Datensatz zunächst mit filter() auf die Region Europa, das Datum 2020-03-30 und Bestätigte Fälle >= 5000 filtern. Anschließend lassen wir uns aus diesem Objekt die Variable Country/Region ausgeben und speichern die Liste der Länder, die am 30.03.2020 über 5000 bestätigte Fälle hatten im Objekt europa_5000_list ab. Nun haben wir eine Liste all dieser Länder und filtern unseren Datensatz nach Ländern, die in dieser Liste vorkommen. Anschließend erstellen wir wieder einen Flächenplot:

europa_5000_list <- filter(data, Region == "Europa" &
           Datum == as.Date("2020-03-30") &
           `Bestätigte Fälle` >= 5000)$`Country/Region`

Europa5000 <- filter(data, 
                  Region =="Europa" & 
                    `Country/Region` %in% europa_5000_list & 
                    Datum >= as.Date("2020-02-24"))
g7 <- ggplot(data = Europa5000) +
  geom_area(mapping = aes(x = Datum, 
                          y = `Bestätigte Fälle`, 
                          fill = Staat)) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  scale_y_continuous(labels = number) +
  labs(x = "Datum", 
       y = "Bestätigte Fälle", 
       title = paste("Bestätigte Fälle in Europa, Stand ",
                     stand_datensatz,
                     sep="")) +
  theme(legend.position = c(0.15, 0.6),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) + 
  scale_fill_brewer(palette="Set3")
g7

Auf dieselbe Weise erstellen wir die drei weiteren Grafiken, nur dass wir die vorangegangene Filterarbeit nicht erneurt durchführen müssen:

g8 <- ggplot(data = Europa5000) +
  geom_area(mapping = aes(x = Datum, 
                          y = `Todesfälle`, 
                          fill = Staat)) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  scale_y_continuous(labels = number) +
  labs(x = "Datum", 
       y = "Todesfälle", 
       title = paste("Todesfälle in Europa, Stand ",
                    stand_datensatz,
                    sep="")) +
  theme(legend.position = c(0.15, 0.6),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) + 
  scale_fill_brewer(palette="Set3")
g8

g9 <- ggplot(data = Europa5000) +
  geom_area(mapping = aes(x = Datum, 
                          y = `Genesungen`, 
                          fill = Staat)) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  scale_y_continuous(labels = number) +
  labs(x = "Datum", 
       y = "Genesungen", 
       title = paste("Genesungen in Europa, Stand ",
                    stand_datensatz,
                    sep="")) +
  theme(legend.position = c(0.15, 0.6),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) + 
  scale_fill_brewer(palette="Set3")
g9

g10 <- ggplot(data = Europa5000) +
  geom_area(mapping = aes(x = Datum, 
                          y = `Akute Erkrankungen`, 
                          fill = Staat)) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  scale_y_continuous(labels = number) +
  labs(title = paste("Akute Erkrankungen in Europa, Stand ",
                    stand_datensatz,
                    sep="")) +
  theme(legend.position = c(0.15, 0.6),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) + 
  scale_fill_brewer(palette="Set3")
g10

Deutschland

Um alle drei Kategorien an Fällen in Deutschland in einem zusammenfassenden Flächenplot abzubilden, müssen wir zuerst den Datensatz nach Country/Region gruppieren und anschließend nach Germany filtern. Danach sortieren wir den Datensatz nach Datum in aufsteigender Reihenfolge und erstellen die Variable Absoluter Anstieg bestätigter Fälle mithilfe der lag() Funktion sowie die Variable Prozentualer Anstieg bestätigter Fälle.

Nun können wir diesen Datensatz mit pivot_longer() in die lange Form überführen.

Deutschland <- data %>% 
  group_by(`Country/Region`) %>% 
  filter(`Country/Region` == "Germany") %>% 
  arrange(Datum) %>% 
  mutate(`Absoluter Anstieg bestätigter Fälle` = lag(`Bestätigte Fälle`),
         `Prozentualer Anstieg bestätigter Fälle` = ((`Bestätigte Fälle` / `Absoluter Anstieg bestätigter Fälle`)-1)*100)
  


Deutschland_lang <- pivot_longer(data = Deutschland, 
                                 cols = c(`Bestätigte Fälle`,
                                          `Todesfälle`,
                                          `Genesungen`,
                                          `Akute Erkrankungen`,
                                          `Absoluter Anstieg bestätigter Fälle`,
                                          `Prozentualer Anstieg bestätigter Fälle`),
                                 names_to = "Kategorie",
                                 values_to = "Fälle")

Da wir in unserem langen Datensatz mehr Stufen innerhalb der Variable Kategorie haben, als wir abbilden möchten, filtern wir innerhalb von ggplot noch einmal nach den drei Variablen Akute Erkrankungen, Genesungen und Todesfälle.

g11 <- ggplot(data = filter(Deutschland_lang, 
                     Kategorie == "Akute Erkrankungen" |
                       Kategorie == "Genesungen" |
                       Kategorie == "Todesfälle", Datum >= as.Date("2020-03-01"))) +
  geom_area(mapping = aes(x = Datum, 
                          y = `Fälle`, 
                          fill = Kategorie)) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  labs(x = "Datum", 
       y = "Bestätigte Fälle in Deutschland",
       title = paste("Bestätigte Fälle in Deutschland, Stand ",
                    stand_datensatz,
                    sep="")) + 
  theme(legend.position = c(0.2, 0.8),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5)) + 
  scale_fill_brewer(palette="Set3")
g11

Nun erstellen wir mit ggplot() und geom_col() ein Balkendiagramm und fügen ein paar Beschriftungen ein. Die Fallzahlen der Labels können wir aus dem gefilterten Datensatz ablesen. Innerhalb von ggplot() filtern wir auf Daten, die neuer sind als der 24.02.2020.

g12 <- ggplot(data = filter(Deutschland, Datum >= as.Date("2020-02-24"))) +
  geom_col(mapping = aes(x = Datum, 
                         y = `Prozentualer Anstieg bestätigter Fälle`), 
           fill = "#6699ff") +
  scale_y_continuous(breaks=seq(0,max(Deutschland$`Prozentualer Anstieg bestätigter Fälle`, na.rm = T), 10)) +
  geom_vline(xintercept = as.Date("2020-03-06")) +
  geom_label(label="670 Fälle", y=70, x=as.Date("2020-03-06")) +
  geom_vline(xintercept = as.Date("2020-03-14")) +
  geom_label(label="4585 Fälle", y=60, x=as.Date("2020-03-14")) +
  geom_vline(xintercept = as.Date("2020-03-21")) +
  geom_label(label="Bayern \n Ausgangs-\n sperre, \n 22213 Fälle", y=75, x=as.Date("2020-03-20")) +
  geom_vline(xintercept = as.Date("2020-03-23")) +
  geom_label(label="Bundesweites \n Kontaktverbot, \n 29056 Fälle", y=40, x=as.Date("2020-03-25")) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") + 
  labs(y = "Prozent", 
       title = paste("Prozentualer Anstieg bestätigter Fälle in Deutschland, Stand ",
                     stand_datensatz,
                     sep="")) +
  theme(legend.position = c(0.9, 0.8),
        legend.background = element_rect(fill=alpha(0.4)),
        plot.title = element_text(hjust = 0.5))
g12

Im Folgenden möchten wir ein Balkendiagramm mit den Fallzahlen in Deutschland erstellen und eine Exponentialfunktion errechnen, die auf den Fallzahlen vom 14.-20.3.2020 beruht. Die Werte nach dem 20.3.2020 wollen wir hellblau zeichnen, die Werte vor dem 20.3.2020 sollen dunkelblau sein.

Hierfür filtern wir zuerst den Datensatz auf die Daten vom 23.02.2020 - 30.03.2020. Für die dunkelblauen Balken filtern wir erneut und wählen nur die Daten aus, die zwischen dem 1.03.2020 und dem 20.3.2020 liegen. An diesen Tagen stiegen die Fälle noch stärker als nach dem 20.3.2020. Diese Daten wollen wir dunkelblau färben.

Nun filtern wir erneut den Datensatz auf die die Daten vom 14.03.2020 - 20.03.2020, denn nur diese Daten wollen wir für die Berechnung des Modells benutzen. Auf diesem Datensatz errechnen wir den Logarithmus der bestätigten Fälle. Anschließend berechnen wir auf den logarithmierten Daten eine lineare Regression mit lm(). Mit der Funktion seq() erstellen wir anschließend eine Sequenz der Tage, für die wir die prognostizierten Fallzahlen mithilfe unseres Modells ausrechen möchten. Durch die Funktion predict.lm() berechnen wir für diese Sequenz die simulierten Werte und exponieren diese anschließend wieder mit exp() und speichern diese im Objekt prognose als Variable modell ab. Nun fügen wir den neu erstellten Datensatz prognose mit der Funktion full_join() zu unserem zuerst gefilterten Datensatz hinzu.


alle_daten <- Deutschland %>% 
  filter(Datum >= as.Date("2020-02-23") & Datum <= max(data$Datum))

dunkelblau <- Deutschland %>% 
  filter(Datum >= as.Date("2020-03-01") & Datum <= as.Date("2020-03-20"))

modelldaten <- Deutschland %>% 
  filter(Datum >= as.Date("2020-03-14") & Datum <= as.Date("2020-03-20")) %>% 
  mutate(`Log Bestätigte Fälle` = log(`Bestätigte Fälle`))

modell <- lm(`Log Bestätigte Fälle` ~ Datum, data = modelldaten)
Datum <- seq(as.Date("2020-03-14"), as.Date("2020-03-30"), by = 1)
prognose <- data.frame(Datum)
prognose$modell <- exp(predict.lm(modell, newdata = prognose)) 

alle_daten_prognose <- full_join(alle_daten, prognose, by = "Datum")

Nun können wir mit ggplot() zuerst ein Balkendiagramm Datensatzes alle_daten_prognose erstellen und wählen Hellblau (royalblue1) als Farbe. Anschließend erstellen wir ein zweites Balkendiagramm des Objektes dungelblau, welches nur die Werte vor vom 01.03.2020 - 20.03.2020 enthält und färben diese dunkelblau (royalblue4). Anschließend fügen wir einen Linienplot mit geom_line() hinzu, der die prognostizierten Fälle (modell) basierend auf den Daten vom 14.03.2020 - 20.03.2020 enthält.

Zum Schluss fügen wir noch einige Labels (geom_label()) und vertikale Linien (geom_vline()) hinzu, stellen das Datum auf ein Intervall von 5 Tagen und ändern die Formatierung des Datums auf der X-Achse.

g13 <- ggplot(data = alle_daten_prognose) +
  geom_col(mapping = aes(x = Datum, 
                         y = `Bestätigte Fälle`), 
           fill ="royalblue1") +
  geom_col(data = dunkelblau, 
           mapping = aes(x = Datum, 
                         y = `Bestätigte Fälle`), 
           fill ="royalblue4") +
  geom_line(mapping = aes(x = Datum, 
                          y = modell), 
            color = "red4", size = 1) + 
  
  geom_vline(xintercept = as.Date("2020-03-06")) +
  geom_label(label="670 Fälle", 
             y=20000, 
             x=as.Date("2020-03-06")) +
    
  geom_vline(xintercept = as.Date("2020-03-14")) +
  geom_label(label="4585 Fälle", 
             y=50000, 
             x=as.Date("2020-03-14")) +
  
  geom_vline(xintercept = as.Date("2020-03-21")) +
  geom_vline(xintercept = as.Date("2020-03-23")) +
  
  geom_label(label="Bayern \n Ausgangs-\n sperre, \n 22213 Fälle", 
             y=80000, 
             x=as.Date("2020-03-20")) +
  geom_label(label="Bundesweites \n Kontaktverbot, \n 29056 Fälle", 
             y=150000, 
             x=as.Date("2020-03-23")) +
  
  geom_vline(xintercept = as.Date("2020-03-30")) +
  geom_label(label="229108 \n Fälle", 
             y=225000, 
             x=as.Date("2020-03-30"), 
             color = "red") +
  geom_label(label="66885 \n Fälle", 
             y=95000, 
             x=as.Date("2020-03-30")) +
  
  labs(x = "Datum", 
       y = "Bestätigte Fälle",  
       title = paste("Bestätigte Fälle in Deutschland, Stand ",
                     stand_datensatz,
                     sep="")) +
  scale_x_date(date_breaks = "2 week", date_labels = "%d.%m") +
  theme(plot.title = element_text(hjust = 0.5))
g13

Diese Seite ist in ständiger Bearbeitung und wird demnächst weiter ergänzt. Zuletzt bearbeitet am 10.08.2020.

Stand des Datensatzes: 09.08.2020














Wie Sie uns erreichen:

StatSoft (Europe) GmbH
Poßmoorweg 1
22301 Hamburg
Deutschland

Kontakt

Fon +49 40 22 85 900-0
Fax +49 40 22 85 900-77

E-Mail info@statsoft.de
Internet: www.statsoft.de

Impressum
Datenschutz

