Mehr

Die Stabilität von RandomForest-Modellen nach steigenden Prädiktorvariablen


In Bezug auf die Beiträge: Einbeziehen von Geländedaten zur Vorhersage der Baumkronenbedeckung mit randomForest in R und Random-Forest Classification of 10cm Imagery for Art-Distribution in R (keine Punktformen)

Ich würde gerne wissen, wie und warum das eigene Modell zur Kartierung von Canopy- und Nicht-Canopy-Bereichen verbessert werden sollte, wenn mehrere Prädiktorvariablen hinzugefügt werden, wie zum Beispiel:

  • Vegetationsindizes
  • Steigung
  • Elevation
  • Aspekt
  • mehrere Bänder

Wenn ich dem Trainingssatz mehrere Prädiktorvariablen hinzufüge, muss ich das Modell über einen Rasterstapel vorhersagen, der aus denselben Layern besteht, richtig?

Kann ich daher auch Bänder von Landsat (nach Herunterskalierung auf 5,8 m) in meine LISS IV-Bänder als Teil der Trainingsdaten und des Rasterstapels einbeziehen, auf dem das Modell vorhersagt?


Eine der coolen Eigenschaften von Random Forest ist, dass sie an jedem Knoten eine zufällige Teilmenge der Variablen untersuchen. Diejenigen, die den Split mit der besten Entropie (oder anderen Kriterien) liefern, werden beibehalten, während andere verworfen und möglicherweise in einem nachfolgenden / anderen Knoten getestet werden. In sehr einfachen Worten: Wenn eine Variable keine Informationen über die Aufteilung liefert (z. B. Canopy vs. Non-Canopy), wird sie im endgültigen Modell nicht verwendet. Aus der anderen Sicht kann eine Variable nach einem Split auf eine andere Variable informativ werden, und möglicherweise wird diese Variable zur Vorhersagezeit nützlich sein.

Fügen Sie im Prinzip alle Informationen hinzu, die Sie hinzufügen können (besser, wenn Sie Vorkenntnisse haben, die irgendwie mit den Ausgaben Ihres Problems zusammenhängen). Sicherlich korrelieren Landsat-Bänder und -Bilder gut mit dem Vorhandensein von Baldachin, also fügen Sie sie hinzu.

Persönlich verwende ich RF-Klassifikatoren mit Tausenden von Variablen. In diesen Situationen müssen Sie nur sicherstellen, dass Sie viele Bäume verwenden (verhindern Sie Overfitting, im Prinzip je mehr Sie verwenden, desto besser ist es) und dass Sie bei jeder Note indikativ sqrt(#variables) testen, um Ihr Feature richtig zu erkunden Platz. In Bezug auf den Anteil der Trainingsbeispiele, die beim Absacken verwendet werden, habe ich nie signifikante Unterschiede in der Testgenauigkeit festgestellt. Die Trainingszeit kann jedoch besser sein.

Zu Ihrem zweiten Punkt ja, alle Variablen, die Sie zur Trainingszeit verwenden, müssen zur Testzeit (Vorhersagezeit) vorhanden sein. In der gleichen Reihenfolge, mit der gleichen Skalierung. (Beachten Sie, dass die Skalierung der Variablen selbst für Random Forest nicht wichtig ist, aber die Verteilung von Trainings- und Testdaten muss natürlich gleich sein!)

Was die Literatur angeht, ist das Beste, was ich je über RF gelesen habe, dieses ("DIE") RF-Tutorial. Es ist hauptsächlich auf Computer-Vision-Anwendungen ausgerichtet (insbesondere auf die von ihnen entwickelte Kinect-Körperteilerkennung), aber es ist sehr einfach und schön zu lesen. Danach sollten Sie die ganze RF-Sache verstehen. Für das IDK der Fernerkundungsanwendung stöbern Sie vielleicht einfach in wissenschaftlichen Zeitschriften. Sicherlich wird eine richtige Suche mit den richtigen Schlüsselwörtern schöne Hinweise geben.

EDIT: wahrscheinlich interessiert Sie nur der Klassifizierungsteil des obigen Tutorials, aber ich schlage vor, es vollständig zu lesen, es ist sehr schön.


Bewertung der Genauigkeit und Stabilität von Variablenselektionsmethoden für die Random Forest-Modellierung in der Ökologie

Die Random Forest (RF)-Modellierung hat sich aufgrund ihrer außergewöhnlichen Vorhersageleistung zu einer wichtigen statistischen Lernmethode in der Ökologie entwickelt. Für große und komplexe ökologische Datensätze gibt es jedoch nur begrenzte Leitlinien zu variablen Auswahlmethoden für die HF-Modellierung. Typischerweise wird entweder ein vorausgewählter Satz von Prädiktorvariablen verwendet oder es werden schrittweise Prozeduren verwendet, die Variablen gemäß ihren Wichtigkeitsmaßen iterativ entfernen. Dieses Papier untersucht die Anwendung von Variablenauswahlmethoden auf RF-Modelle zur Vorhersage des wahrscheinlichen Zustands biologischer Fließgewässer. Unser motivierender Datensatz besteht aus dem guten/schlechten Zustand von nein = 1365 Bachvermessungsstandorte aus dem National Rivers and Stream Assessment 2008/2009 und ein großer Satz (p = 212) von Landschaftsmerkmalen aus dem StreamCat-Datensatz als potenzielle Prädiktoren. Wir vergleichen zwei Arten von HF-Modellen: ein Modell mit vollständiger Variablenmenge mit allen 212 Prädiktoren und ein Modell mit reduzierter Variablenmenge, das mit einem Rückwärtseliminationsansatz ausgewählt wurde. Wir bewerten die Modellgenauigkeit mithilfe der internen Out-of-Bag-Schätzung von RF und einem Kreuzvalidierungsverfahren mit Validierungsfalten außerhalb des Variablenauswahlprozesses. Wir bewerten auch die Stabilität der von den RF-Modellen generierten räumlichen Vorhersagen gegenüber Änderungen der Anzahl von Prädiktoren und argumentieren, dass die Modellauswahl sowohl Genauigkeit als auch Stabilität berücksichtigen muss. Die Ergebnisse legen nahe, dass die HF-Modellierung robust gegenüber der Einbeziehung vieler Variablen von mittlerer bis geringer Bedeutung ist. Wir fanden keine wesentliche Verbesserung der kreuzvalidierten Genauigkeit als Ergebnis der Variablenreduktion. Darüber hinaus neigte das Rückwärtseliminationsverfahren dazu, zu wenige Variablen auszuwählen und wies zahlreiche Probleme auf, wie zum Beispiel nach oben verzerrte Genauigkeitsschätzungen außerhalb des Beutels und Instabilitäten in den räumlichen Vorhersagen. Wir verwenden Simulationen, um Ergebnisse aus der Analyse realer Daten weiter zu unterstützen und zu verallgemeinern. Ein Hauptzweck dieser Arbeit ist es, Ökologen, die daran interessiert sind, HF zur Entwicklung von Vorhersagemodellen mit großen Umweltdatensätzen zu verwenden, Probleme der Modellauswahl und Instabilität aufzuklären.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Vorhersagemodelle mit zufälligerWald Regression für Verbreitungsmuster der Meiofauna in isländischen Gewässern

Der Austausch von kaltem Polarwasser aus dem Norden und warmem Nordatlantikwasser aus dem Süden wird durch den Grönland-Island-Schottland-Rücken (GSR) begrenzt, der dann als Barriere für den Faunenaustausch aus den tiefen arktischen und tiefen Atlantikbecken wirken kann. Wir untersuchten die Meiofauna-Dichte und -Verteilungsmuster aus verschiedenen Regionen nördlich und südlich der GSR in Wassertiefen zwischen 307 und 2749 m. Insgesamt wurden 84 Multicore-Proben untersucht, die während des Projekts IceAGE1 (Icelandic marine Animals: Genetics and Ecology) im Sommer 2011 gesammelt wurden gradientWald Ansatz zur Bewertung des Ausmaßes der Veränderung der Zusammensetzung und der Schwellen bemerkenswerter Veränderungen in der Gemeinschaft entlang von Umweltvariablen. zufälligerWald Regression wurde angewendet, um die Meiofauna auf einer räumlich zusammenhängenden Skala mit einem Satz von 23 Umweltvariablen vorherzusagen. Die Dichte der Meiofauna lag zwischen 187 und 3185 Individuen pro 10 cm 2 mit den höchsten beobachteten Dichten nördlich der GSR. Nematoda war das am häufigsten vorkommende Taxon in der Meiofauna-Gemeinschaft, gefolgt von Copepoda und Nauplii. Im Irminger Becken war Gastrotricha das dritthäufigste Taxon, während in allen anderen Regionen Ostracoda das dritthäufigste war. Nahrungsangebot, Wassertiefe, Bodenwassersauerstoff und hydrographische Aktivität, die die wichtigsten Variablen für die Veränderungen der Gemeinschaft sind, erklären bis zu 86% der in den Meiofauna-Gemeinschaften beobachteten Variation.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Einführung

Vulnerable marine Ökosysteme (VMEs) sind Ökosysteme, die durch die Auswirkungen von Fischerei oder anderen Störungen potenziell gefährdet sind, was durch die Verwundbarkeit ihrer Komponenten (z. B. Lebensräume, Gemeinschaften oder Arten) bestimmt wird (FAO, 2009). Es wurden eine Reihe von Resolutionen der Generalversammlung der Vereinten Nationen verabschiedet, die Nationalstaaten und Fischereiorganisationen verpflichten, VMEs innerhalb ihrer Gerichtsbarkeit als einen der Schritte zu ihrem Schutz zu identifizieren (siehe Ardron et al., 2014 für Details). Es wurden Arten oder taxonomische Gruppen identifiziert, die als Indikatoren für das Vorkommen von VMEs in bestimmten Meeresregionen verwendet werden können, um die für ihren Schutz zuständigen Behörden zu unterstützen [z. B. die South Pacific Regional Fisheries Management Organization (SPRFMO) in der South Pacific Region& #x02014Parker et al., 2009]. Solche Taxa besitzen Eigenschaften, die sie besonders anfällig für Störungen machen (wie langsame Wachstumsraten, Langlebigkeit, späte Reife und Zerbrechlichkeit) und umfassen Arten, die strukturell komplexe Merkmale bilden, wie Korallenriffe und Schwammaggregationen, die eine dreidimensionale Struktur aufweisen mit diversen Lebensgemeinschaften und diskreten Gebieten von funktioneller Bedeutung (z. B. notwendiger Lebensraum für seltene, bedrohte oder gefährdete Arten des Lebensraums und/oder Überleben, Funktion, Laichen/Reproduktion oder Erholung von Fischbeständen und bestimmten Lebensstadien) ( FAO, 2009).

Die Modellierung der Habitateignung (manchmal auch als Artenverteilungsmodellierung bezeichnet) ist eine Methode zur Vorhersage der Eignung eines Standorts für eine Art oder Gruppe von Arten, basierend auf ihrer beobachteten Beziehung zu Umweltbedingungen. Modellierung der Habitateignung wird zunehmend verwendet, um Verteilungsmuster von VME-Indikatortaxa in der Tiefsee vorherzusagen, wo die Daten besonders spärlich sind, und solche Modelle werden als nützlich für das Management mariner Ökosysteme angesehen (Ross und Howell, 2013 Reiss et al., 2014). Habitateignungsmodelle wurden für zahlreiche Tiefseetaxa erstellt (siehe Übersicht von Vierod et al., 2014), aber die vorhergesagten Verteilungen hängen von der Konstruktion der Modelle ab. Die Quantität, Qualität und Verteilung von Aufzeichnungen über das Vorhandensein von Arten, die Verfügbarkeit von Aufzeichnungen über die wahre Abwesenheit und die verwendeten Umweltprädiktorvariablen können alle die Zuverlässigkeit der Modelle beeinflussen (Araújo und Guisan, 2006 Guisan et al., 2006). Jüngste Bemühungen, die Genauigkeit von Habitateignungsmodellen und damit ihre Nützlichkeit für das Management der Auswirkungen der Fischerei auf VMEs zu verbessern, umfassten die Verwendung von Abundanzdaten (anstatt sich nur auf Anwesenheits-/Abwesenheitsdaten zu verlassen), die Validierung von Ground-Truth-Modellen , Ensemblemodellierung und Schätzungen der Modellunsicherheit (Rooper et al., 2014, 2016 Anderson et al., 2016a,b Robert et al., 2016). Trotz dieser Verbesserungen werden Modelle manchmal für Managementzwecke als ungeeignet erachtet, weil sie entweder eine zu grobe räumliche Auflösung haben oder weil sie das Vorhandensein von VME-Indikatortaxa vorhersagen, aber nicht die VME selbst. Diese Probleme können reduziert werden, wenn hochauflösende Multibeam-Daten und Meeresbodenbilder zum Erstellen von Habitateignungsmodellen verwendet werden (z. B. Howell et al., 2011 Rengstorf et al., 2012, 2013, 2014).

Ziel der vorliegenden Studie war es, hochauflösende Habitateignungsmodelle für VME-Indikatortaxa und VME-Habitat auf Seamounts der Louisville Seamount Chain auf der Skala einzelner Seamounts zu erstellen. Diese Seeberge befinden sich innerhalb des SPRFMO-Übereinkommensbereichs, und einige werden von der neuseeländischen Fischerei mit Grundschleppnetzen auf Orangenbarsch gefischt. SPRFMO verfügt über Schutzmaßnahmen für VMEs, aber die Wirksamkeit dieser Maßnahmen wurde in Frage gestellt (z. B. Penny und Guinotte, 2013) und zusätzliche und alternative Maßnahmen werden von den Interessenträgern gesucht und in Betracht gezogen. Derzeit werden auf einigen Seebergen für die neuseeländische Fischerei große 20-minütige räumliche Sperren für Breiten-/Längengrad implementiert, basierend auf der früheren Fischereigeschichte oder dem Vorhandensein eines VME, der durch den Beifang von VME-Indikatortaxa festgestellt wurde, die einen bestimmten Schwellenwert überschreiten (Parker et al. , 2009 Penney et al., 2009). Eine mögliche alternative Bewirtschaftungsmaßnahme besteht darin, kleine Gebiete auf einzelnen Seebergen zu schließen, die über VMEs verfügen oder wahrscheinlich verfügen, und die Fischerei an anderen Stellen auf dem Seeberg zu ermöglichen. Hochauflösende Habitateignungsmodelle auf Meereshöhe für VME-Indikatortaxa würden die Gestaltung solcher räumlicher Abschottungsmaßnahmen innerhalb der Meereshöhe unterstützen.

In der vorliegenden Studie haben wir solche Modelle für eine Art riffbildender Steinkorallen gebaut, Solenosmilia variabilis und zwei Taxa, die als nützliche Indikatoren für das Vorkommen von Seesternen und Crinoiden im Lebensraum Korallenriffe gelten (Parker et al., 2009). Die vorliegende Studie baut auf früheren Modellierungsarbeiten zur Habitateignung in der Region auf (Anderson et al., 2016a,b), und zusammengenommen können diese Modelle verwendet werden, um die Raummanagementplanung zum Schutz von VMEs in den Meeren um Neuseeland, einschließlich wichtiger Boden- Schleppnetzgebiete innerhalb des SPRFMO-Übereinkommensgebiets.


Teil III. Methoden zum Umgang mit Kollinearität

Wir glauben nicht, dass das Problem der Kollinearität aus logischen Gründen gelöst werden kann: Ohne mechanistisches ökologisches Verständnis können kollineare Variablen nicht mit statistischen Mitteln getrennt werden. Dennoch können wir erwarten, dass einige Ansätze hinsichtlich robuster Modellanpassung und Vorhersage überlegen sind. Als Faustregel gilt, Variablen zu wählen, die a) ökologisch relevant sind, b) durchführbar sind und c) näher am Mechanismus liegen (in der Reihenfolge Ressource-direkt-indirekt-Proxy-Variablen: Harrell 2001, Austin 2002). Wenn die statistische Methode die Streichung einer ökologisch sinnvollen oder wichtigen Variablen vorschlägt, sollte der Ökologie der Vorzug gegeben werden. Trotz dieser sorgfältigen Auswahl können wir am Ende immer noch eine Reihe kollinearer Variablen erhalten, entweder weil es mehrere ökologisch wichtige Variablen für ein untersuchtes Phänomen gibt (z. B. die chemische Zusammensetzung des Futters) oder weil wir noch nicht wissen, welche der Prädiktoren sind wichtig. Die größte Herausforderung besteht nun darin, Variablen sinnvoll zu extrahieren oder zu kombinieren, wie in den folgenden Abschnitten erläutert.

Technische Details, Reaktionstypen und verwendbare Prädiktorvariablen, wichtige Referenzen und Beispielstudien in der Ökologie finden Sie im ergänzenden Material Anhang 1.1. Da der Bereich der Regressionsmethoden riesig ist, haben wir uns auf Methoden konzentriert, die häufig verwendet werden oder die eine Überprüfung versprechen, und die folgende Fallstudie ist nicht erschöpfend. Der gesamte Code für die Datengenerierung ist in Anhang 2 des ergänzenden Materials verfügbar und interessierte Leser können ihn auf jede Methode anwenden, die wir nicht behandelt haben. Das ergänzende Material Anhang 1.3 enthält einen kurzen Überblick über eine Reihe ausgeschlossener Ansätze.

Erkennen Sie es: Diagnose

Wann sind Variablen kollinear? Die statistische Literatur bietet mehrere Quantifizierungen der Kollinearität (Tabelle 1), wobei der paarweise Korrelationskoeffizient (r), den Bedingungsindex (die Quadratwurzel des Verhältnisses jedes Eigenwerts zum kleinsten Eigenwert von X), den Varianzinflationsfaktor (VIF) und seine verallgemeinerte Version (gVIF: Fox und Monette 1992 ) und die Varianzzerlegungsanteile (VD , das genauere Informationen über den Beitrag der Eigenvektoren zur Kollinearität gibt: Belsley et al. 1980 , Brauner und Shacham 1998 ). Während diese Methoden einen Wert pro Variablenpaar berechnen (mit Ausnahme des VD, bei dem die Anzahl der berechneten Werte dem Quadrat der Anzahl der Variablen entspricht), gibt es auch Ansätze, die einen einzelnen Wert schätzen, um den Grad der Kollinearität vollständig zu beschreiben Datensatz ('Variablensatzindizes'). Am häufigsten verwendet wird die Determinante der Korrelationsmatrix (det(R)) und die Bedingungszahl (CN, die Quadratwurzel des Verhältnisses von größtem und kleinstem Eigenwert von X). In der Literatur herrscht Verwirrung bezüglich der Begriffe Konditionsindex und Konditionsnummer. Manchmal wird der Bedingungsindex anstelle der Bedingungszahl als das Verhältnis des größten zum kleinsten Eigenwert definiert. Wir folgen hier den Definitionen von Rawlings et al. 1998). Der Code für all diese ist in Anhang 2 des ergänzenden Materials enthalten.

Methode Beschreibung Schwelle
Absoluter Wert der Korrelationskoeffizienten (|r|) 1 Wenn paarweise Korrelationen einen Schwellenwert überschreiten, ist die Kollinearität hoch, der Vorschlag für Schwellenwerte: 0,5–0,7 >0.7
Determinante der Korrelationsmatrix (D) Produkt des Eigenwerts, wenn D nahe 0 ist, ist die Kollinearität hoch, wenn D nahe 1 ist, gibt es keine Kollinearität in den Daten
Zustandsindex (CI) 2 Maß für den Schweregrad der Multikollinearität im Zusammenhang mit jEigenwerte die CIs einer Korrelationsmatrix sind die Quadratwurzeln der Verhältnisse des größten Eigenwertes dividiert durch den im Fokus stehenden Eigenwert alle CIs gleich oder größer als 30 (oder zwischen 10 und 100?) sind „groß“ und kritisch >30
Konditionsnummer (CN) Gesamtzusammenfassung der Multikollinearität: höchster Zustandsindex >30
Kappa (K) CN im Quadrat 5
Varianz-Zerlegungs-Verhältnis (VD) 1,3 Varianzanteile von ichVariable, die auf die jEigenwert keine Variable sollte einem Eigenwert mehr als 0,5 zuordnen
Varianz-Inflationsfaktor (VIF) 3,4 1/(1–rich 2) mit rich 2 der Bestimmungskoeffizient der Vorhersage aller anderen Variablen für die ichte variable Diagonalelemente von R –1 , wobei R –1 die Inverse der Korrelationsmatrix (VIF =1 falls orthogonal) Werte >10 (rich 2 >0.9) zeigt eine Varianz an, die über 10 mal so groß ist wie bei orthogonalen Prädiktoren >10
Toleranz 1/VIF <0.1

Welche Indexklasse am sinnvollsten ist, hängt von der Komplexität des Datensatzes ab. Variablensatz-Indizes sind vorzuziehen, wenn in Datensätzen mit einer großen Anzahl erklärender Variablen schnell auf Kollinearität geprüft wird. Pro-Variablen-Indizes geben ein detaillierteres Bild von der Anzahl der beteiligten Variablen und dem Grad der Kollinearität. Manchmal können die Indizes pro Variable Kollinearität anzeigen, obwohl die Indizes der Variablenmenge sie verfehlen.

Entfernen der Kollinearität vor der Analyse

Die erste Zusammenstellung von Kollinearitätsmethoden und auch die größte umfasst Ansätze, die Kollinearität aus dem Variablensatz entfernen oder den Variablensatz so modifizieren, dass Kollinearität vor der Analyse entfernt wird. Diese Assemblage gliedert sich in zwei Gruppen, die sich in ihrer Herangehensweise ziemlich grundlegend unterscheiden. Die erste Gruppe von Bereinigungsmethoden vor der Analyse identifiziert, welche Variablen sich zusammenschließen und somit ein Proxy-Set bilden (Abschnitt Identifizieren von Clustern/Proxy-Sets). Nachdem ein Cluster identifiziert wurde, sind mehrere Vorgehensweisen möglich, die im Folgenden erläutert werden (Abschnitt Umgang mit Clustern). Die zweite Gruppe durchläuft keine Cluster, um zu neuen Datensätzen zu gelangen (Abschnitt Cluster-unabhängige Methoden), sondern verwendet eine Vielzahl anderer Methoden, um von den kollinearen Eingabe- zu den nicht-kollinearen Ausgabedaten zu gelangen. Mehrere der unten vorgestellten Methoden verwenden Korrelation als Indikator für Kollinearität. Wir stellen fest, dass Korrelation und Kollinearität nicht dasselbe sind: Kollinearität bedeutet linear verwandt, während Daten mit unterschiedlichem Grad an linearem Zusammenhang denselben Korrelationskoeffizienten haben können. Dennoch weisen hohe absolute Korrelationskoeffizienten in der Regel auf eine hohe lineare Verwandtschaft hin.

Identifizieren von Clustern/Proxy-Sets

Es gibt zahlreiche Methoden zum Clustern von Variablen, von denen wir die gängigsten ausgewählt haben. An dieser Stelle steht eine konzeptionelle Entscheidung: Ob die Antwortvariable (ja) sollte bei der Identifizierung von Clustern verwendet werden. Harrell (2001) argumentiert, dass die Antwort ignoriert werden sollte, da die Cluster die Gruppierung erklärender Variablen in Bezug auf sich selbst darstellen, nicht die Gruppierung von Variablen in ihrer Beziehung zur Antwort. Im Folgenden werden wir explizit erwähnen, wann immer ja wird als Eingabe verwendet.

Die Hauptkomponentenanalyse (PCA) ist eine der gebräuchlichsten Methoden, um Korrelationen in einem Variablensatz zu entfernen und die Kollinearität zu reduzieren (da die Korrelation als Indikator für die Kollinearität dienen kann). Sie kann nur auf kontinuierliche Variablen angewendet werden, obwohl es eng verwandte Ordinationsmethoden wie die Korrespondenzanalyse gibt, die mit anderen Arten von Variablen umgehen können. PCA erzeugt orthogonale (d. h. vollkommen unkorrelierte) Achsen als Ausgabe, sodass die PC-Achsen ohne Clustering direkt in nachfolgenden Analysen anstelle der ursprünglichen Variablen verwendet werden können. Wir diskutieren diesen Ansatz später im Abschnitt Modellierung latenter Variablen. Um PCA für das Clustering zu verwenden, sollte die PCA auf die Korrelationsmatrix angewendet werden (und nicht auf die Kovarianzmatrix, die durch die unterschiedliche Variablenskala verzerrt ist). Es gibt Methoden, um Clustering direkt auf die Komponenten oder auf Rotationen derselben anzuwenden (Booth et al. 1994). Wir haben nur den direkten Ansatz verwendet, wie er ausführlich im Zusatzmaterial Anhang 1.1 beschrieben ist. Die allgemeine Idee besteht darin, schrittweise durch die PCA-Achsen zu arbeiten, die Belastungen der Variablen auf den Achsen zu untersuchen und Gruppierungen zu identifizieren. Variablen mit absoluten Ladungen größer als 0,32 bilden die „Proxy-Gruppen“ oder Cluster von Interesse ( Booth et al. 1994 ). Der Wert 0,32 wird gewählt, weil er 10 % der Varianz für die Variable darstellt, die durch die PC-Achsen erklärt wird (Tabachnick und Fidell 1989). Beachten Sie, dass PCA empfindlich auf Ausreißer (Extremwerte), Transformationen, fehlende Daten reagiert und Multinormalverteilungen annimmt. In der Praxis ist die Technik relativ robust, wenn sie zur Beschreibung verwendet wird (im Gegensatz zum Hypothesentesten), solange die Daten kontinuierlich, nicht stark verzerrt und ohne zu viele Ausreißer sind. Andere Koordinationstechniken (PCoA, nMDS, (D)CA) können analog eingesetzt werden und sind für beliebige Daten besser geeignet. K-bedeutet Clustering ist äquivalent zu PCA-basiertem Clustering ( Zha et al. 2001 , Ding und He 2004 ).

Clusteranalyse ist die Aufteilung einer Menge erklärender Variablen in Teilmengen, d. h. Cluster basieren auf dem Abstand zwischen Variablen ( Jain et al. 1999 ). Clustering kann von unten nach oben (agglomerativ) oder von oben nach unten (divisiv) durchgeführt werden. Leider hängen die Ergebnisse stark davon ab, welcher der vielen Clustering-Algorithmen und welche der vielen Distanzmetriken verwendet werden (Lebart et al. 1995). Die am häufigsten empfohlenen sind das Ward-Clustering auf der Grundlage der Korrelationsmatrix oder ein Hoeffding-Clustering ( Lebart et al. 1995 , Harrell 2001 ), aber neue Methoden wie selbstorganisierende Karten ( Kohonen 2001 ) und andere maschinelle Lernalgorithmen können überlegen sein ( Hastie et al. 2009 ). Da die hierarchische Clusteranalyse einen vollständigen Clusterbaum liefert, muss eine Distanzschwelle angegeben werden, um die tatsächlichen Cluster zu bilden.

Die iterative Varianz-Inflationsfaktor-Analyse (iVIF) ist eine Methode, die auf der Quantifizierung der Kollinearität durch VIF basiert (Booth et al. 1994). VIFs sind die diagonalen Elemente der Umkehrung der Korrelationsmatrix. Die iterative VIF-Analyse funktioniert im Wesentlichen durch den Vergleich der VIF-Werte eines Satzes von Prädiktorvariablen mit und ohne eine zusätzliche erklärende Variable. Alle Variablen, die einen Anstieg des VIF-Wertes über einen bestimmten Schwellenwert zeigen, werden mit der neu hinzugekommenen Variablen zu einem Cluster zusammengefasst (Proxy-Set im Sinne von Booth et al. 1994). Die iterative Formel garantiert, dass alle Variablenkombinationen getestet werden. Das Verfahren identifiziert verschiedene Gruppen im Vergleich zu einer Klassifikation basierend auf paarweisen VIF-Werten, da es auch den VIF von Gruppen mit mehr als zwei Variablen berücksichtigt.

Umgang mit Clustern

Sobald Cluster identifiziert sind, gibt es mehrere Möglichkeiten, sie zu handhaben, die drei häufigsten sind: 1) Führen Sie eine PCA basierend auf Variablen im Cluster durch und verwenden Sie die Hauptkomponenten (PCs) 2) stellen Sie den Cluster durch die Variable dar, die dem Clusterschwerpunkt am nächsten ist oder 3) den Cluster durch die Variablen mit dem höchsten univariaten Vorhersagewert für die Antwort darstellen.

PCA für Cluster-Variablen ist die gebräuchlichste Methode zur Erstellung von „Cluster-Scores“ (Harrell 2001). Solange alle Hauptkomponenten in der nachfolgenden Regression verwendet werden, ist die Analyse unverzerrt (F. Harrell pers. comm. in R-help). Wenn Teilmengen von PCs ausgewählt werden, kann die resultierende Verzerrung tolerierbar sein, wenn die ausgewählten Achsen den größten Teil der Clusterträgheit erklären. Der Vorteil ist, dass dieser auf Composite-Axis-Score basierende Ansatz alle Variablen des Clusters integriert, der Nachteil ist jedoch, dass PCs oft schwer zu interpretieren sind.

Die Auswahl einer „zentralen“ Variablen aus dem Cluster überwindet die Interpretationsprobleme, führt jedoch unweigerlich zu einer Verzerrung durch das Weglassen bestimmter Variablen ( Fraley und Raftery 1998 ). Die Variablen, die dem multidimensionalen Clusterzentrum am nächsten sind (z. B. in Bezug auf den euklidischen Abstand), sind ein offensichtlicher Kandidat.

Die Verwendung des „besten Regressors“ aus den Variablen in einem Cluster hat den Nachteil, dass die Antwort verwendet wird, um zu bestimmen, welche Variablen ausgewählt werden. Diese Zirkularität der Verwendung ja in der Analyse können Fehler vom Typ I aufblähen ( Harrell 2001 ). Da der Analyse aber in der Regel ohnehin eine explorative Datenanalyse vorausgeht, darf der Best-Regressor-Ansatz („Datenschnüffeln“) die Analyse im Vergleich zur völligen Ignorierung der Kollinearität nicht allzu stark verzerren.

Beachten Sie, dass, obwohl einige Methoden geeigneter erscheinen mögen, weil sie "interpretierbare" Variablen anstelle von zusammengesetzten Achsenwerten verwenden, dies trügerisch ist: Egal, wie wir einen Cluster darstellen, die verwendete Variable repräsentiert alle anderen Variablen des Clusters und sollte nicht sein nur zum Nennwert interpretiert. Es ist eine sinnvolle Vorsichtsmaßnahme, die beibehaltene Variable umzubenennen, um ihre multiplen Identitäten widerzuspiegeln.

Clusterunabhängige Methoden

Es gibt zwei Hauptoptionen, um die Identifizierung von Clustern zu umgehen und entweder die kollinearen Eingabevariablen während der Analyse direkt zu verwenden oder einen weniger kollinearen Satz von Prädiktoren zu erzeugen.

Wählen Sie korrelierte Variablen |r| <0.7 ist die am häufigsten angewandte Methode in verschiedenen Wissenschaftsbereichen, wenn auch mit unterschiedlichen Schwellenwerten. Dies ist nur dann eindeutig zu interpretieren, wenn zwischen korrelierten Variablen ein deutlicher Unterschied in der ökologischen Bedeutung besteht. Wenn dies nicht der Fall ist, können nichtlineare univariate Vorabscans jeder Variablen („Daten-Snooping“) verwendet werden, um die Reihenfolge der Bedeutung zu bestimmen (siehe Murray und Conner 2009 für einen Überblick über Methoden, die nur lineare Ansätze verwenden). Obwohl ein Schwellenwert von 0,7 am gebräuchlichsten ist, wurden auch restriktivere (z. B. 0,4 in Suzuki et al. 2008 ) und weniger restriktive (0,85 in Elith et al. 2006 ) Schwellenwerte verwendet.

Sequentielle Regression ( Graham 2003 ) zielt darauf ab, neue bereinigte erklärende Variablen zu schaffen, indem die gemeinsame Variation von den weniger wichtigen Variablen reziprok subtrahiert wird. Es regressiert erklärende Variablen linear gegeneinander und verwendet die Residuen, um sie darzustellen. Beachten Sie, dass dieser Ansatz zwar manchmal auch als „Residualregression“ bezeichnet wird ( Graham 2003 ), sich jedoch grundlegend von dem zu Recht kritisierten Ansatz der „Regression der Residuen“ ( Freckleton 2002 ) unterscheidet. Bei der sequentiellen Regression werden die Prädiktoren regressiert, während bei der „Regressionsregression“ die Residuen der unabhängigen Variablen in einer Regression im zweiten Schritt verwendet werden. In der Praxis umfasst die sequentielle Regression die folgenden zwei Schritte: 1) Identifizieren einer Reihenfolge von Bedeutung für die erklärenden Variablen. Dies sollte vorzugsweise durch ökologische Überlegungen erfolgen. Wenn die Daten ökologisch nicht unterscheidbar sind (z. B. Konzentration von Spurenelementen im Boden), können nichtlineare univariate Regressionen auf die Antwortvariable verwendet werden, um die Wichtigkeitsreihenfolge zu bestimmen. 2) Berechnen Sie den unabhängigen Beitrag jeder erklärenden Variablen. Die erste (wichtigste) Variable bleibt unverändert. Die zweite Variable wird gegen die erste regressiert, und die Residuen dieser Regression stellen den unabhängigen Beitrag der zweiten Variable dar, nachdem der Effekt der ersten berücksichtigt wurde. Die dritte Variable wird nun mit der ersten und den Residuen der zweiten regressiert usw. Die resultierenden Variablen sind orthogonal, aber bedingt. Sie können ohne die vorherigen Variablen nicht interpretiert werden. Auch eine standardmäßige schrittweise Modellvereinfachung kann nicht verwendet werden, da nach dem Entfernen einer Variablen alle Variablen mit geringerer Bedeutung neu berechnet werden müssen. Die Interpretation der Variablen ändert sich von „es gibt einen positiven Effekt des Niederschlags“ zu „es gibt einen Niederschlagseffekt zusätzlich zu dem Beitrag, den er bereits durch seine Beziehung zur Temperatur geleistet hat“. Konzeptionell ist die sequentielle Regression mit der semipartiellen Korrelationsanalyse ( Bortz 1993 ) und der Pfadanalyse verbunden, Methoden, bei denen Variablen durch ihre Beziehungen zu anderen Variablen ( Grace 2006 ) wirken können.

Modellierung mit latenten Variablen

Einige Methoden sind so konzipiert, dass sie kollineare Variablen integrieren. Die in diesem Abschnitt beschriebenen Methoden befassen sich mit Kollinearität, indem sie sogenannte „latente“ Variablen konstruieren, d. h. unbeobachtete Variablen, die den beobachteten kollinearen Variablen zugrunde liegen. Aufgrund der verwendeten Methoden konzentriert sich die meiste Varianz der beobachteten erklärenden Variablen auf die ersten paar neuen latenten Variablen und normalerweise werden die weniger wichtigen latenten Variablen verworfen, was zu einer Verringerung der Dimensionen führt. Die Methoden unterscheiden sich darin, wie die latenten Variablen abgeleitet werden, ob die Antwortvariable in diese Ableitung einbezogen wird und wie viele latente Variablen extrahiert werden.

Die Hauptkomponentenregression (PCR) verwendet einfach die PCs als erklärende Variablen und ist auf lineare Anpassungen an diese Variablen beschränkt. Oft werden nur solche PCs verwendet, die kumulativ über 90% der Varianz erklären. Dann vereinfacht ein schrittweises Vorgehen das Modell weiter. Die Ridge-Hauptkomponenten-Regression (Vigneau et al. 1997) ist ein Sonderfall der PCR, bei dem die PCs nicht in einem gewöhnlichen Regressionsmodell, sondern in einem bestraften Regressionsmodell verwendet werden. Einzelheiten zur Bestrafung finden Sie im Abschnitt „Tolerante Methoden“ weiter unten.

Partial Least Squares (PLS) modifiziert iterativ die Ladungen der erklärenden Variablen auf einem PCA, um die Anpassung der PCA-Regression an die Antwortvariable zu maximieren ja (Abdi 2003). Es hält somit die PLS-Achsen orthogonal, aber sie repräsentieren nicht mehr die maximale Varianz in X. Die Absicht dieses Ansatzes ist, dass die gewählten latenten Variablen nicht nur für X, aber auch für y, obwohl Hastie et al. (2009) zeigen, dass die Varianz in X immer noch tendenziell dominiert.

Bei gewöhnlichem PLS werden Drehungen der Hauptkomponenten an die Antwortvariable angepasst. Durch Ändern der Rotation in einem iterativen Verfahren wird die beste lineare Anpassung an die Antwort gefunden. Penalized Partial Least Squares verwendet eine nichtlineare Anpassung, basierend auf Splines, um die beste Rotation und damit die besten PLS-Komponenten zu finden ( Krämer et al. 2007 ). PPLS kann daher als Kombination von PLS und generalisierten additiven Modellen (GAMs) betrachtet werden. GAMs sind jedoch sehr flexible Modelle, die die Daten möglicherweise erheblich überfitten (d. h. eine hohe Leistung bei Trainingsdaten haben, aber eine geringe Leistung bei Testdaten). Um dieses Problem zu überwinden, werden Parameter benachteiligt, was zu einem robusteren Modell führt. Dieser Vorgang wird in der statistischen Literatur auch als Schrumpfung oder Regularisierung diskutiert ( Harrell 2001 , Reineking und Schröder 2006 ). Weitere Einzelheiten zur Bestrafung finden Sie im Abschnitt „Tolerante Methoden“ weiter unten.

Die beschränkte Hauptkomponentenanalyse (CPCA: Vigneau et al. 2002) funktioniert ähnlich wie die PLS, ist jedoch nicht iterativ. Um die beste Rotation von . zu finden X es erfordert die Schätzung eines Abstimmungsparameters, der die Anpassung an . ausgleicht ja gegen PCA-ähnliche Maximierung der Varianz auf aufeinanderfolgenden Achsen (siehe ergänzendes Material Anhang 1.1 für Details). Während also ein PCA darauf abzielt, die Variation in X mit möglichst wenigen Hauptkomponenten und PLS konzentriert sich auf die Anpassung von ja, CPCA bringt diese beiden Ziele ins Gleichgewicht.

Bei der latenten Wurzelregression (Webster et al. 1974, Gunst et al. 1976) wird die Antwortvariable in eine PCA mit den Prädiktoren aufgenommen. Dies identifiziert wichtige PCA-Achsen als solche mit einer hohen Belastung von identifies ja. Eine Möglichkeit der Achsenauswahl besteht darin, bestimmte Schwellenwerte für die Eigenwerte und die Belastungen von zu definieren ja (Vigneauet al. 1996). Dann wird die PCA erneut ausgeführt, jedoch nur für die ausgewählten Variablen, wobei „die nicht prädiktive Kollinearität“ gelöscht wird ( Gunst et al. 1976 ). Unter Berufung auf Joliffe (2002, S. 180): „Die latente Wurzelregression löscht also diejenigen PCs, die Multikollinearitäten anzeigen, aber nur, wenn die Multikollinearität für die Vorhersage unbrauchbar erscheint“ ja.’ Hawkins (1973) und Hawkins und Eplett (1982) behalten die Antwortvariable bei der Neuberechnung des PCA, was wir als falsch ansehen. Die Entscheidung darüber, welche Eigenwerte als groß genug gelten, um ihre hochbelasteten Variablen beizubehalten, ist etwas willkürlich (Gunst und Mason 1980). Ein eleganterer Ansatz, bei dem Linearkombinationen von Prädiktoren sequentiell gebildet und auf die abhängige Variable bezogen werden, um ihre Relevanz für Vorhersagen zu bestimmen, wurde von Vigneau et al. (2002) . Der Vor- und Nachteil von LRR wird von Guerard und Vaught (1989, S. 349) schön beschrieben: „Die latente Wurzelregression fügt einen voreingenommenen Begriff hinzu und beseitigt gleichzeitig die schlechte Konditionierung. […] der Bias-Term klein ist und der mittlere quadratische Fehler des latenten Wurzelregressionsschätzers kleiner ist als der mittlere quadratische Fehler des gewöhnlichen kleinsten Quadratschätzers. Daher wird LRR gegenüber der OLS-Analyse [ordinary Least Squares] bevorzugt, solange der Parametervektor nicht parallel zum latenten Vektor ist, der der kleinsten latenten Wurzel der Korrelationsmatrix entspricht.“

Die Dimensionsreduktion (DR) ist strukturell mit der Faktorenanalyse verbunden, da sie auch neue orthogonale Achsen und Tests für die Anzahl der Dimensionen erzeugt, die zur Darstellung des Datensatzes erforderlich sind. DR verwendet dazu aber auch die Antwortvariable. Es gibt verschiedene DR-Verfahren: Sliced-Inverse Regression (SIR: Li 1991 ), Sliced ​​Average Variance Estimate (SAVE: Cook und Weisberg 1991 ), Hessische Hauptrichtungen (PHD: Li 1992 ) und Inverse Regression Estimate (IRE: Wen and Cook .). 2007). Nach Weisberg (2008) untersuchen die ersten drei dieser Methoden das Problem der inversen Regression von X|ja, anstatt das Vorwärtsregressionsproblem von ja|X. Ein großer Vorteil der DR gegenüber den anderen Ansätzen mit latenten Variablen besteht darin, dass auch kategoriale Variablen analysiert werden können. Achsenbelastungen können auf die gleiche Weise wie für PCA verwendet werden, um Cluster zu konstruieren.

Tolerante Methoden

Einige Regressionstechniken können empfindlicher auf Kollinearität reagieren als andere. Jüngste Entwicklungen bei Modellauswahlmethoden haben neue Methoden zum Ausgleich von Modellkomplexität und -anpassung eingeführt. Obwohl sie nicht unbedingt auf Kollinearitätstoleranz ausgelegt sind, bieten sie Ansätze, die möglicherweise weniger empfindlich sind. Die hier aufgeführten Ansätze fallen in vier verschiedene Gruppen.

Bestrafte Regressionen berücksichtigen sowohl die Anzahl der Parameter p in einem Modell und ihre absoluten Schätzungen β: Modellkomplexität = []. Der Grad der Bestrafung unterscheidet sich zwischen den Ansätzen: Bei der Kammregression λ=2 (auch ‘L . genannt2-norm’: Hoerl und Kennard 1970 ), in LASSO-Regression λ=1 (‘L1-norm’: Tibshirani 1996 ) und in OSCAR (siehe unten) λ wird mit dem L . optimiert1-norm zusammen mit der paarweisen L∞-Norm ( Bondell und Reich 2007 ). Die Kombination von L1 und ich2 wird als elastisches Netz bezeichnet ( Zou und Hastie 2005 ) und ähnelt OSCAR ( Bondell und Reich 2007 ). Je nach Form der Strafe werden die Regressionskoeffizienten verkleinert und/oder selektiert. Während alle genannten Methoden zu einer Schrumpfung der Regressionskoeffizienten gegen Null führen, führt die Ridge-Regression weder eine Selektion noch eine Gruppierung durch, während LASSO Parameter selektiert, aber nicht gruppiert. Eine Schrumpfung der Koeffizienten gegen Null führt zu einem Schätzfehler, aber auch zu einem geringeren Vorhersagefehler aufgrund der verringerten Varianz ( Hastie et al. 2009 ).

Octagonal Shrinkage for Clustering and Regression (OSCAR) bietet dem Benutzer Cluster basierend auf einer Regression aller Variablen gegen die Antwort (Bondell und Reich 2007). Da sowohl Antwortvariablen als auch erklärende Variablen vor der Analyse standardisiert werden, können nur normalverteilte Antworten und kontinuierliche erklärende Variablen verwendet werden. OSCAR erfordert die Angabe von zwei Kontrollparametern (die Bestrafung des L1 Norm und die Bestrafung des paarweisen L norm), die optimiert werden sollte, was OSCAR zu einer recht rechenintensiven Methode macht.

Methoden des maschinellen Lernens sind ein dynamisches Forschungsgebiet der Ökologie (Elith et al. 2006, Hastie et al. 2009), und wir stellen nur vier Methoden vor, die aufgrund ihres Interesses für Ökologen ausgewählt wurden. Unsere maschinellen Lernmethoden basieren auf Klassifikations- und Regressionsbäumen (Boosted Regressionsbäume, BRT: Friedman et al. 2000 und randomForest: Breiman 2001) oder sehr flexible, mehrdimensionale Polynome oder Splines höherer Ordnung (Support Vector Machines, SVM: Fan et al. 2005 und Multivariate Adaptive Regression Splines, MARS: Friedman 1991). Einzelheiten zu diesen Methoden finden Sie im ergänzenden Material Anhang 1.1.

Kollinearitätsgewichtete Regression (CWR) ist eine neue Idee, die während dieser Studie von CFD, TM und BR entwickelt wurde. Die Methode gewichtet diejenigen Datenpunkte, die am stärksten zum Kollinearitätsmuster bei der Regression der Antwortvariablen gegen die erklärenden Variablen beitragen (X). Dies ist wahrscheinlich am nützlichsten in Situationen, in denen Ausreißer zufällig sind und (teilweise) für eine starke Kollinearität verantwortlich sind.


Einführung

Die hypertensiven Schwangerschaftsstörungen (HDP) und insbesondere Präeklampsie und Eklampsie bleiben weltweit eine der drei häufigsten Ursachen für Müttersterblichkeit und -morbidität [1]–[4]. Präeklampsie erhöht auch das fetale Risiko, da festgestellt wurde, dass sie mit einem erhöhten Risiko für Totgeburten, neonatalen Tod, intrauterine Wachstumsbeschränkung und Frühgeburt verbunden ist [4]. Die Mehrheit der mit HDP assoziierten Todesfälle tritt in den Ländern mit niedrigem und mittlerem Einkommen (LMICs) auf, wenn kein ausgebildetes medizinisches Fachpersonal vorhanden ist [5], [6]. Es wird angenommen, dass die erhöhte Belastung durch unerwünschte Ergebnisse bei LMICs in erster Linie auf Verzögerungen bei der Triage (Ermittlung, wer schwer krank ist oder werden könnte und eine höhere Pflegestufe in Anspruch nehmen sollte), Transport (Frauen zu angemessener Versorgung bringen) und Behandlung (Bereitstellung einer geeigneten Behandlung wie Magnesiumsulfat, Antihypertensiva und zeitgesteuerte Abgabe) [7]–[9]. Ein wesentlicher Faktor für die mit Präeklampsie verbundene Morbidität und Mortalität ist der Mangel an ausreichend geschultem Gesundheitspersonal in der Erkennung und Triage von Verdachtsfällen [9].

Eine vorgeschlagene Methode zur Verbesserung der Ergebnisse bei LMICs ist die Aufgabenverlagerung von Aspekten der Schwangerschaftsvorsorge auf bestehende Kader von Gesundheitspersonal auf mittlerer Ebene [5], [10]. Um dies effektiv tun zu können, benötigen diese Gesundheitspersonal einfache, evidenzbasierte Instrumente zur Überwachung schwangerer Frauen und zur genauen Identifizierung derjenigen, die das größte Risiko für schwere Komplikationen haben. Durch die Identifizierung der Frauen mit dem höchsten Risiko für nachteilige mütterliche Folgen lange bevor dieses Ergebnis eintritt, können Transport und Behandlung gezielt auf die bedürftigsten Frauen ausgerichtet werden.

Unsere Gruppe hat zuvor das Präeklampsie Integrated Estimate of Risk (fullPIERS) klinisches Vorhersagemodell entwickelt, das ungünstige mütterliche Ergebnisse bei Frauen mit Präeklampsie auf der Grundlage des Gestationsalters einer Frau zum Zeitpunkt der Diagnose, des Symptomkomplexes von Brustschmerzen und/ oder Dyspnoe, Sauerstoffsättigung durch Pulsoximetrie und Laborergebnisse von Thrombozytenzahl, Serumkreatinin und Aspartattransaminase. Das fullPIERS-Modell, validiert in einem tertiären Krankenhaus mit hohem Einkommen, hat eine ausgezeichnete Unterscheidungsfähigkeit mit einer Fläche unter der Receiver Operating Characteristic Curve (AUC ROC) von 0,88 (95% CI 0,84–0,92) [11] . Aufgrund der Einbeziehung von Labortests ist das fullPIERS-Modell jedoch möglicherweise nicht für alle Einstellungen geeignet, insbesondere für die Grundversorgung in LMICs.

Das Ziel der miniPIERS-Studie war die Entwicklung und Validierung eines vereinfachten klinischen Vorhersagemodells für unerwünschte mütterliche Folgen bei Frauen mit HDP zur Verwendung in kommunalen und primären Gesundheitseinrichtungen in LMICs.


Methoden

Datenerfassung

Wir haben einen Datensatz mit 45 Spinnengattungen und mehreren Attributen (Prädiktorvariablen) zusammengestellt, die möglicherweise den Artenreichtum beeinflussen könnten (abhängige Variable). Wir kategorisierten die Prädiktorvariablen in vier Gruppen: morphologisch, genetisch, geografisch und „andere“ (mit phylogenetischem Rang, Vorhandensein von Ballonbildung, Art der Nahrungssuche und sexuellem Größendimorphismus (SSD)). Wir haben nach dem Zufallsprinzip Spinnengattungen ausgewählt, die öffentlich verfügbare Daten zu den oben genannten Attributen hatten. Darüber hinaus haben wir uns bemüht, die Gattungen auszuwählen, die eine signifikante Variation der Prädiktorvariablen sowie eine Variation des Artenreichtums aufweisen. Wann immer es möglich war, stellten wir sicher, dass Variablen kategorialer Daten ungefähr gleich durch die Anzahl der Beobachtungen in jeder Kategorie repräsentiert wurden (Zusatzdatei 2).

Morphologische Variablen

Wir verwendeten Informationen zur Körpergröße als morphologische Prädiktorvariable. Wir erhielten die folgenden Daten: (a) maximale weibliche Körpergröße, repräsentiert durch die größte Art innerhalb einer Gattung (b) minimale weibliche Körpergröße, repräsentiert durch die kleinste Art innerhalb einer Gattung (c) maximale männliche Körpergröße, repräsentiert durch die größte Arten innerhalb einer Gattung und (d) minimale männliche Körpergröße, repräsentiert durch die kleinste Art innerhalb einer Gattung. Aus diesen Werten haben wir die durchschnittlichen Körpergrößen und die Variation der Körpergrößen für Männer und Frauen sowie für beide Geschlechter zusammen berechnet. Dies führte zu zehn Permutationen von Körpergrößenvariablen für die Analysen. Wir erhielten Informationen zur Körpergröße hauptsächlich aus der Araneae, Spiders of Europe-Datenbank [88] und konsultierten die Originalliteratur für Gattungen, die in dieser Datenbank nicht vertreten sind (siehe Zusätzliche Datei 2).

Genetische Variablen

Als genetische Prädiktorvariable verwendeten wir genetische Distanzen, die aus COI-Daten berechnet wurden. Wir haben BOLD-Systeme oder GenBank für alle öffentlich verfügbaren COI-Sequenzen pro Zielgattung analysiert. Wir haben dann diejenigen Sequenzen verworfen, die kürzer als 600 Nukleotide waren und diejenigen ohne Speziesidentifikation. Wir wählten eine einzelne Sequenz pro Spezies aus, um paarweise Abstände in MEGA zu berechnen [89]. Wir haben den K2P-Parameter und eine paarweise Deletionsoption verwendet, um die minimalen, maximalen und mittleren interspezifischen (kongeneren) genetischen Distanzen innerhalb jeder Gattung zu berechnen (Zusatzdatei 2).

Geografische Variablen

Wir haben vier geografische Prädiktorvariablen gebildet. Zuerst haben wir die geografische Reichweite jeder anvisierten Spinnengattung geordnet. Wir haben die Informationen über das Vorkommen von Arten aus dem World Spider Catalog (WSC) [56] und der Global Biodiversity Information Facility (GBIF) [90] verwendet und die geographischen Bereiche der Gattungen mit den folgenden Kriterien klassifiziert: (Rang 1) alle Arten innerhalb der Gattung sind verteilt lokal, zB innerhalb eines einzigen Archipels (Rang 2) alle artverwandten Arten sind auf einem einzigen Kontinent verteilt (Rang 3) alle artverwandten Arten sind auf zwei Kontinente verteilt (Rang 4) alle artverwandten Arten sind auf drei Kontinente verteilt und (Rang 5) artverwandte Arten kommen auf vier oder mehr Kontinenten vor, dh die Gattung ist kosmopolitisch. Zweitens zählten wir die endemischen Einzelinsel-Arten innerhalb jeder Gattung [56] und berechneten den Prozentsatz an kongeneren Einzelinsel-Endemiten. Drittens haben wir die artverwandten Arten gezählt, deren Vorkommen auf ein einzelnes Land beschränkt sind (ohne Inselländer aus dem vorherigen Schritt) und den Prozentsatz der artverwandten Arten mit einer begrenzten Verbreitung berechnet. Schließlich kombinierten wir den Prozentsatz einzelner Inselendemiten und den Prozentsatz einzelner Ländervorkommen zum vierten geografischen Prädiktor, dem Prozentsatz der artverwandten Arten mit einer „engen Reichweite“ (Zusatzdatei 2).

Andere Variablen

Wir bildeten zusätzliche vier Prädiktorvariablen. Wir haben Gattungen in vier phylogenetische Reihen eingeteilt: (a) Mesothelae, (b) Mygalomorphae, (c) Haplogynae und (d) Entelegynae. Diese unterschiedlichen Spinnenkladen unterschiedlichen evolutionären Alters [73, 74] stellen eine Annäherung an eine Prädiktorvariable für das Kladenalter dar. Nach einer vorläufigen Analyse haben wir jedoch die Mesothelae- und Mygalomorphae-Kladen in einer Gruppe „Orthognatha“ zusammengefasst, da beide Klassen getrennt von der Anzahl der Datenpunkte unterrepräsentiert waren. Obwohl paraphyletisch, ist die Gruppe „Orthognatha“ evolutionär die älteste, die Entelegynae die jüngste und die Haplogynae die Mittelstufe. Entelegynae- und Haplogynae-Kladen repräsentieren zusammen die Araneomorphae-Spinnen (Zusatzdatei 2).

Aus dem Bereich Verhaltensökologie haben wir die Art der Nahrungssuche und das Vorhandensein von Ballonbildung als Prädiktoren einbezogen. Die Art der Nahrungssuche wurde entweder als „Falle“ oder als „cursorial“ klassifiziert. Die „Falle“ umfasst Beutefang per Netz oder Hinterhalt, während eine netzlose, aktive Nahrungssuche die Kategorie „cursorial“ bestimmt. Das Vorliegen einer Ballonbildung wurde gemäß der Übersichtsarbeit zum Spinnenballonfahren [63] (Zusatzdatei 2) als „ja“ oder „nein“ eingestuft.

Die letzte Prädiktorvariable war das Vorhandensein oder Fehlen eines Sexualgrößendimorphismus (SSD). Wir haben SSD aus der durchschnittlichen Körpergröße einer Art innerhalb der Gattung berechnet. Wenn das Verhältnis zwischen durchschnittlicher weiblicher und männlicher Körpergröße 1,5 überstieg, klassifizierten wir die Gattung als Arten mit SSD („ja“), andernfalls gingen wir davon aus, dass diese Gattung keine dimorphen Arten mit sexueller Größe enthält („nein“). Da die Literatur ein Verhältnis von 2,0 bereits als extreme SSD ansieht [59], berücksichtigt unser willkürlich gewähltes Verhältnis von 1,5 bereits eine moderate (sowie extreme) SSD. Wir erkennen an, dass die Berechnung von SSD aus einer einzelnen Art innerhalb einer Gattung wahrscheinlich zu falsch negativen Ergebnissen führt, aber wir mussten die Einschränkungen akzeptieren, die sich auf einen großen Datensatz beziehen (Zusätzliche Datei 2).

Artenreichtum als abhängige Variable

Wir erhielten die Gesamtzahl der beschriebenen Arten innerhalb jeder Zielgattung von WSC [56]. Wir haben den Artenreichtum als numerisch abhängige Variable für die Random Forest (RF) Regressionsmodelle belassen und für RF-Klassifikationsmodelle sowie für multiple Korrespondenzanalysen (MCA) kategorisiert. Wir verwendeten alternative Definitionen für Artenreichtumskategorien, die von zwei breiten Gruppen („niedrig“ und „hoch“) bis zu fünf engeren Gruppen („sehr hoch“, „hoch“, „mittel“, „niedrig“, „sehr gering“) reichen. , wobei versucht wird, alle Kategorien annähernd gleich durch Datenpunkte repräsentiert zu halten (Zusatzdatei 2).

Unsere Methodik berücksichtigt keine taxonomischen Unsicherheiten, und daher besteht ein potenzieller Vorbehalt darin, dass Variationen in der taxonomischen Vollständigkeit zwischen den Gattungen die Ergebnisse verzerren können. Um diese potenzielle Verzerrung zu mildern, war unsere Auswahl der analysierten Gattungen zufällig. Darüber hinaus werden Verzerrungen in Bezug auf ungleich vollständige Gattungstaxonomien wahrscheinlich durch eine breite Datenkategorisierung verringert. Je breiter die Artenreichtumskategorien, desto geringer ist der Einfluss unbeschriebener Arten.

Analytische Protokolle

Zufälliger Wald

Die Aussagekraft von Random Forest (RF)-Vorhersagen basiert auf dem „mittleren Rückgang GINI“, einem Index, der die Vorhersagekraft jeder Variablen in der Regression oder Klassifikation erklärt [91]. Je größer die Gini-Abnahme ist, desto größere Rolle spielt die Prädiktorvariable [91, 92]. Auf diese Weise kann die Bedeutung der zu bewertenden Merkmale eingestuft werden, was eine intuitive grafische Interpretation ermöglicht (Abb. 1). Die Leistung von RF bei mehreren kollinearen Variablen im Datensatz ist normalerweise den konventionelleren Regressionsmodellen und anderen Methoden der multivariaten Statistik aufgrund seiner nicht parametrischen Natur, der zufälligen Auswahl von Merkmalen bei jeder Knotenerstellung und der rekursiven Partitionierung überlegen [93,94 ,95]. Während RF den besten Prädiktor selbst unter stark korrelierten Variablen genau identifizieren sollte, können einige Variablen, die mit dem besten Prädiktor korrelieren, einen künstlich verringerten Wichtigkeitsindex im Vergleich zum besten Prädiktor aufweisen. Daher ist bei der Interpretation der relativen Bedeutung zwischen korrelierten Variablen Vorsicht geboten [96, 97].

Wir haben das randomForest-Paket [98] in R [99] verwendet, um zehn RF-Modelle zu konstruieren. Die ersten sechs RF-Modelle klassifizierten den Artenreichtum in zwei Kategorien. Wir führten die erste HF-Analyse mit allen 22 Prädiktorvariablen durch. Die RF-Analysen 2–5 verwendeten eine Untermenge von Variablen, „morphologisch“, „geografisch“, „genetisch“ und andere“, während die letzte RF-Analyse nur einen einzigen besten Prädiktor für den Artenreichtum aus jeder der vorherigen Kategorien („wichtig “). Das RF-Modell, das die „wichtigen“ Prädiktorvariablen verwendet, die nicht kollinear sind, minimiert auch jedes potenzielle Dilemma, das sich aus RF-Analysen aller Prädiktorvariablen ergeben könnte, von denen einige einen gewissen Grad an Kollinearität aufweisen. Für die Analysen 7 und 8 führten wir eine RF-Klassifizierung mit einer in drei Kategorien unterteilten Artreichtumsvariable durch, die alle Prädiktorvariablen bzw. „wichtige“ Prädiktoren verwendete. Die beiden Regressionsmodelle der RF verwendeten auch „alle“ und „wichtige“ Prädiktorvariablen. Der Datensatz für HF-Analysen enthielt eine Kombination aus binären, kategorialen und numerischen Daten. Wir haben geografische Bereiche (1 bis 5) von numerischen in Faktorvariable umgewandelt. Die Daten wurden dann zufällig in Trainings aufgeteilt (nein = 32) und Testdatensätze (nein = 13) mit Ausnahme der Regressionsmodelle, bei denen ein Trainingsdatensatz größer sein musste (nein = 40), um das „Lernen“ zu erleichtern. Wir haben RF auf dem Trainingsdatensatz ausgeführt und RF-Modelle optimiert, indem wir die optimalen „mtry“- und „ntree“-Werte gesucht haben, um den „out of the bag“-Fehler (OOB) zu reduzieren. Schließlich wurde die Genauigkeit jedes trainierten HF-Modells mit dem Testdatensatz bewertet. Siehe unterstützende Materialien (zusätzliche Datei 3) für R-Skript.

Zufälligkeit von HF-Analysen verwalten

Jede Analyse, die maschinelle Lernalgorithmen wie RF verwendet, führt unweigerlich zu leicht unterschiedlichen Ergebnissen. Der erste und offensichtlichste Grund ist eine zufällige Aufteilung der Daten in die Trainings- und Testdatensätze. Danach folgt die zufällige Merkmalsauswahl bei jeder Knotenerstellung bei der Suche nach dem besten „mtry“ und eine weitere zufällige Merkmalsauswahl beim Ausführen einer HF-Analyse. Um die Leistung unserer HF über ein einzelnes zufälliges Ereignis hinaus zu untersuchen, das zufällig zu falschen Ergebnissen führen könnte, haben wir jede der zehn HF-Analysen unter zehn verschiedenen Seed-Zahlen in R (set.seed = 1 bis 10) durchgeführt, was insgesamt 100 HF-Vorhersagen ergibt. Anschließend überprüften wir die Konsistenz der Vorhersagen und wählten die RF-Ergebnisse mit dem niedrigsten geschätzten OOB-Fehler aus jeder Analyse aus. Zur Reproduzierbarkeit unserer HF-Analysen fügen wir die Informationen zur Zufälligkeit als die in jeder Analyse verwendeten Seed-Nummern in das R-Skript ein (Zusatzdatei 3).

Multiple Korrespondenzanalyse (MCA)

Im Anschluss an die RF-Analysen wählten wir aus jeder Variablengruppe den besten Prädiktor aus. Weiterhin analysierten wir die Beziehungen zwischen den ausgewählten Prädiktoren und dem Artenreichtum mit multipler Korrespondenzanalyse (MCA). Wir haben das FactoMineR-Paket [100] in R verwendet, um MCA auszuführen und zu visualisieren. Alle Variablen in MCA müssen kategorisch sein, daher haben wir Klassen der minimalen männlichen Körpergröße und der maximalen genetischen COI-Distanz zugeordnet. Männchen kleiner als 5 mm (nein = 22) wurden als „klein“ bezeichnet, während Männchen größer als 5 mm (nein = 22) wurden mit „groß“ gekennzeichnet (Zusatzdatei 2). Ebenso haben wir die Gattungen mit einer maximalen genetischen COI-Distanz von 18% oder mehr zugeordnet (nein = 24) in eine „große“ Kategorie und die Gattungen mit niedrigeren Werten (nein = 20) in eine „kleine“ Kategorie (Zusatzdatei 2). Mit einer vorläufigen MCA-Analyse haben wir einen einzigen extremen Ausreißer identifiziert Heptathela, die einzige Gattung mit einer Reichweite 1. Das Vorhandensein eines oder mehrerer Ausreißer in MCA kann die Interpretation der Achsen dominieren [101] daher haben wir eliminiert Heptathela und fuhr mit den restlichen 44 Gattungen fort.

Während unsere anfängliche MCA zwei Kategorien für Artenreichtum, minimale männliche Körpergröße und maximale COI-Abstände verwendete, führten wir zusätzliche fünf MCA-Analysen mit alternativen Kategoriedefinitionen durch, um als Methodenempfindlichkeitstests zu dienen. Artenreichtum und minimale männliche Körpergrößenkategorien reichten von zwei bis fünf und maximale COI-Abstände reichten von zwei bis drei. Wie oben beschrieben, haben wir versucht, alle Kategorien annähernd gleich durch Datenpunkte repräsentiert zu halten (Zusatzdatei 2). Zusätzliche Datei 4 enthält das R-Skript, das verwendet werden kann, um unsere Analysen mit alternativen Kategorien zu wiederholen oder zu ändern.

Konfidenzellipse überlappt in den MCA-Dimensionen

Um die visuelle Interpretation von MCA zu ergänzen, haben wir die relevantesten Konfidenzellipsen der Variablenkategorien in einem einzigen Diagramm aufgetragen. Darüber hinaus haben wir die Überlappungsanteile zwischen diesen Konfidenzellipsen mit dem spatstat:utils R-Paket [102] berechnet (für Details siehe Zusatzdatei 4).

Korrelationsanalyse nach Spearman

Nach zahlreichen RF- und MCA-Analysen identifizierten wir die minimale männliche Körpergröße als die Variable, die am meisten mit dem Artenreichtum in Verbindung gebracht wird. Daher haben wir auch eine etabliertere Korrelationsanalyse zwischen der minimalen männlichen Körpergröße und dem Artenreichtum in R durchgeführt. Wir haben die Daten zuerst mit dem Shapiro-Wilk-Test auf Normalität getestet und dann basierend auf diesen Ergebnissen die Spearman-Rangkorrelation durchgeführt (Details in Zusatzdatei 5 Additional ).


Verwenden von Modellen zur Erstellung von Vorhersagen

Die Schüler untersuchen, wie Sonneneinstrahlung, die Erdoberfläche und die Ozeane sowie Treibhausgase zusammenwirken, um die globale Erwärmung zu verursachen. Sie können Variablen ändern, um zu bestimmen, wie viel Treibhausgasemissionen möglicherweise gesenkt werden müssen, um den Temperaturanstieg abzumildern.

Entwicklungsklimamodelle

Diese listet die Logos von Programmen oder Partnern von NG Education auf, die den Inhalt dieser Seite bereitgestellt oder beigetragen haben. Inhalt Erstellt von

Links

Webseite

1. Aktivieren Sie das Vorwissen der Schüler über Treibhausgase und globale Erwärmung.

Sagen Sie den Schülern, dass sie untersuchen werden, wie viel Treibhausgaskonzentrationen reduziert werden müssen, um eine starke Erwärmung der Erdatmosphäre zu verhindern. Wiederholen Sie mit den Schülern die Wechselwirkungen von Treibhausgasen mit Strahlung und Temperatur sowie Erdoberflächen und -temperatur. Fragen:

  • Wie verursachen Treibhausgase eine Erwärmung der Atmosphäre? (Treibhausgase absorbieren ausgehende Infrarotstrahlung und geben sie wieder ab, wodurch die Wärmeenergie in der Atmosphäre eingeschlossen wird.)
  • Wie wirkt sich der Kohlendioxidgehalt in der Atmosphäre auf den Wasserdampfgehalt in der Atmosphäre aus? (Wenn mehr Kohlendioxid in der Atmosphäre vorhanden ist, wird mehr Wasserdampf in der Atmosphäre vorhanden sein. Kohlendioxid erhöht die Temperaturen, was zu einer erhöhten Verdunstung von Wasser führt. Dies führt zu einer stärkeren Erwärmung und mehr Kohlendioxid in der Atmosphäre, so wie sie ist aus den Ozeanen freigesetzt und mehr Wasserdampf, wenn mehr Wasser verdunstet. Dies ist eine positive Rückkopplungsbeziehung.)
  • Wie beeinflusst die Farbe der Erdoberfläche die Temperatur? (Bei einer hellen Oberfläche wird die Sonnenstrahlung reflektiert, was zu einer geringeren Erwärmung führt. Bei einer dunklen Oberfläche wird die Sonnenstrahlung absorbiert, was zu einer stärkeren Erwärmung führt.)
  • Welche Beziehung besteht zwischen Wasserdampf und Wolken? (Wenn mehr Wasserdampf vorhanden ist, gibt es mehr Wolken. Die Wolken können die Sonnenstrahlung reflektieren, was zu einer Abkühlung führt, wodurch die Wasserdampfmenge in der Luft verringert werden kann. Dies ist eine negative Rückkopplungsbeziehung.)

2. Diskutieren Sie die Rolle der Unsicherheit im wissenschaftlichen Prozess.

Wissenschaft ist ein Prozess des Lernens, wie die Welt funktioniert und dass Wissenschaftler die “richtigen” Antworten nicht kennen, wenn sie beginnen, eine Frage zu untersuchen. Sagen Sie den Schülern, dass sie Beispiele für die Unsicherheit von Wissenschaftlern bei der Klimaprognose sehen können.

Zeige den Diagramm der globalen Temperaturänderung aus dem IPCC-Bericht (Zwischenstaatlicher Ausschuss für Klimaänderungen) von 1995. Sagen Sie den Schülern, dass diese Grafik mehrere verschiedene Modelle von vorhergesagten Temperaturänderungen zeigt. Fragen: Warum gibt es zu späteren Zeitpunkten mehr Variation (eine größere Streuung) zwischen den Modellen als zu näheren Zeitpunkten? (Es gibt mehr Variationen zwischen den Modellen zu späteren Zeitpunkten als zu näheren Zeitpunkten, da die Vorhersage der fernen Zukunft stärker variiert als die Vorhersage der nahen Zukunft.)

Erklären Sie den Schülern, dass die Fähigkeit, kurzfristige Ereignisse besser vorherzusagen, auch bei der Vorhersage von Hurrikanen und tropischen Stürmen auftritt. Projekt Die Definition des National Hurricane Center Track Forecast Cone und den Schülern den “Kegel der Unsicherheit” um die Spur des Sturms zeigen. Sagen Sie den Schülern, dass der Kegel die Unsicherheit der Wissenschaftler im Verlauf des Sturms zeigt, so wie die Klimamodelle die Unsicherheit der Wissenschaftler darüber zeigen, wie stark sich die Temperatur der Erde in Zukunft ändern wird.

Fragen: Wann sind Wissenschaftler am sichersten in ihren Vorhersagen? (Wissenschaftler sind ihren Vorhersagen am sichersten, wenn sie über viele Daten verfügen. Aus diesem Grund ist die Vorhersage kurzfristiger Ereignisse besser als Vorhersagen längerfristiger Ereignisse, sowohl bei der Sturmvorhersage als auch bei der Klimavorhersage.)

Sagen Sie den Schülern, dass ihnen Fragen zur Gewissheit ihrer Vorhersagen gestellt werden und dass sie darüber nachdenken müssen, welche wissenschaftlichen Daten verfügbar sind, wenn sie ihre Gewissheit mit ihren Antworten beurteilen. Ermutigen Sie die Schüler, die wissenschaftlichen Beweise miteinander zu diskutieren, um den Grad der Gewissheit ihrer Vorhersagen besser einschätzen zu können.

3. Diskutieren Sie die Rolle von Systemen in der Klimawissenschaft.

Erklären Sie den Schülern, dass die Vorhersage dessen, was im Klimasystem der Erde passieren wird, ein komplizierter Prozess ist, da es viele verschiedene miteinander interagierende Teile gibt. Wissenschaftler denken darüber nach, wie ein Teil des Systems andere Teile des Systems beeinflussen kann. Geben Sie den Schülern ein einfaches Beispiel für ein System, wie im folgenden Szenario beschrieben.

Auf einer Insel gibt es eine Population von Füchsen und eine Population von Kaninchen. Die Füchse jagen die Kaninchen. Fragen:  

  • Was passiert mit der Fuchspopulation, wenn es viele Kaninchen gibt? (Es wird zunehmen, weil es ein ausreichendes Nahrungsangebot gibt.) 
  • Was passiert mit der Fuchspopulation, wenn sie die meisten Kaninchen gefressen hat? (Die Füchse werden verhungern, wenn ihr Nahrungsangebot abnimmt.) 
  • Was passiert mit der Grasmenge, wenn die Fuchspopulation hoch ist? (Die Grasmenge wird zunehmen, da weniger Kaninchen das Gras fressen.)
  • Wenn es eine Dürre gibt und das Gras nicht gut wächst, was passiert dann mit der Fuchs- und Kaninchenpopulation? (Die Kaninchenpopulation wird abnehmen, weil sie ein geringeres Nahrungsangebot haben. Die Fuchspopulation sollte auch abnehmen, wenn ihr Nahrungsangebot abnimmt.)

Menschen bringen Hunde auf die Insel. Die Hunde konkurrieren mit den Füchsen um das Kaninchenfutterangebot. Fragen Sie: Was wird mit den Füchsen-, Kaninchen- und Graspopulationen passieren, nachdem die Hunde eingeführt wurden? (Die Füchse werden abnehmen, weil sie ihr Nahrungsangebot teilen, die Kaninchen werden abnehmen, weil sie mehr Raubtiere haben, und das Gras wird sich aufgrund der geringeren Auswirkungen der kleineren Kaninchenpopulation gut entwickeln.)

Sagen Sie den Schülern, dass sich diese einfachen Ursache-Wirkungs-Beziehungen zu komplexeren Systembeziehungen ausweiten können. Lassen Sie die Schüler wissen, dass sie in dieser Übung Ursache-Wirkungs- und Systemrückkopplungsbeziehungen zwischen Kohlendioxid und Wasserdampf untersuchen werden. Bitten Sie die Schüler, darüber nachzudenken, wie sich jeder Teil des Systems auf andere Teile des Systems auswirkt.

4. Einführung und Diskussion der Verwendung von Rechenmodellen.

Stellen Sie das Konzept der Rechenmodelle vor und geben Sie den Schülern ein Beispiel für ein Rechenmodell, das sie möglicherweise gesehen haben, z. B. die Vorhersage des Wetters. Projizieren Sie die NOAA Wettervorhersagemodell, das ein gutes Beispiel für ein Rechenmodell darstellt. Sagen Sie den Schülern, dass:

  • Wissenschaftler verwenden Informationen über die Vergangenheit, um ihre Klimamodelle zu erstellen.
  • Wissenschaftler testen ihre Klimamodelle, indem sie sie verwenden, um vergangene Klimata vorherzusagen.
  • Wenn Wissenschaftler vergangene Klimata genau vorhersagen können, können sie sicherer sein, ihre Modelle zur Vorhersage zukünftiger Klimata zu verwenden.

5. Lassen Sie die Schüler das interaktive Modell Using Models to Make Predictions starten.

Stellen Sie den Schülern den Link zur interaktiven Verwendung von Modellen zur Erstellung von Vorhersagen zur Verfügung. Teilen Sie die Schüler in Zweier- oder Dreiergruppen auf, wobei zwei die ideale Gruppierung sind, damit sich die Schüler einen Computerarbeitsplatz teilen können. Sagen Sie den Schülern, dass sie eine Reihe von Seiten mit Modellen mit Fragen zu den Modellen durcharbeiten werden. Bitten Sie die Schüler, die Aktivität in ihren Gruppen durchzuarbeiten, dabei Fragen zu diskutieren und zu beantworten.

HINWEIS: Sie können auf den Antwortschlüssel für Schülerfragen zugreifen—und die Schülerdaten für die Online-Benotung speichern—durch eine kostenlose Registrierung auf der  High-Adventure Science-Portalseite.

6. Lassen Sie die Schüler besprechen, was sie in der Aktivität gelernt haben.

Nachdem die Schüler die Aktivität abgeschlossen haben, bringen Sie die Gruppen wieder zusammen und führen Sie eine Diskussion, die sich auf diese Fragen konzentriert:


Die in dieser Studie verwendeten Flugreisedaten können aufgrund einer Geheimhaltungsvereinbarung mit der International Air Travel Association (IATA) nicht öffentlich geteilt werden. Dieselben Daten können zur Verwendung durch andere Forscher erworben werden, indem Sie sich an die International Air Travel Association (IATA) – Passenger Intelligence Services (PaxIS) (https://www.iata.org/services/statistics/intelligence/paxis/Pages/) wenden. index.aspx).

Die Daten zur Krankheit (Dengue) sind auf Anfrage beim Europäischen Zentrum für die Prävention und die Kontrolle von Krankheiten (ECDC) erhältlich (https://www.ecdc.europa.eu/en/publicationsdata/european-surveillance-system-tessy). Auf alle anderen relevanten Datenquellen wird im Artikel verwiesen.


Materialen und Methoden

Gesamt-Se-Konzentration in Böden (mg Se/kg Boden, hier angegeben als mg Se/kg Böden wurden luftgetrocknet oder ofengetrocknet) 0–30 cmnein = 33.241 Proben) wurden aus Brasilien, Kanada, China, Europa, Japan, Kenia, Malawi, Neuseeland, Südafrika und den Vereinigten Staaten (SI-Materialien und -Methoden für Datensatzdetails und eine Diskussion darüber, welche Se-Datensätze verwendet wurden, Abb. S8). Proben aus Bachsedimenten wurden von dieser Analyse ausgeschlossen. Darüber hinaus erhielten wir 26 Variablen, die Faktoren beschreiben, von denen angenommen wird, dass sie die Se-Konzentrationen im Boden und die Projektionen des moderaten Klimawandels kontrollieren (RCP 6.0 für Klima und A1B für SOC-Daten, Tabelle S1 für Variablenbeschreibungen und Zitate). Alle Daten innerhalb einer 1°-Zelle wurden gemittelt und durch einen einzelnen Wert dargestellt. Um den Einfluss von Fehlern und/oder Ausreißern innerhalb der Datensätze zu minimieren, wurden Pixel mit weniger als fünf Se-Datenpunkten aus der Analyse entfernt (SI-Materialien und -Methoden). Der endgültige Boden-Se-Datensatz bestand aus nein = 1.642 aggregierte Punkte. Vier Techniken zur Auswahl von Variablen [z. B. Korrelationen, Hauptkomponentenanalyse (PCA), Rückwärtseliminationsmodellierung und HF-Knotenreinheitsanalysen SI-Materialien und -Methoden] wurden verwendet, um die folgenden Variablen für die prädiktive Analyse zu speichern: AI, Tongehalt, ET, Lithologie, pH, Niederschlag und SOC in einer Bodentiefe von 0–30 cm. Obwohl im Raster-Dataset 16 lithologische Klassen vorhanden waren, wurden Klassen, die durch zu wenige Boden-Se-Datenpunkte (nein < 200) wurden zusammengefasst anstatt gelöscht (Abb. S4 und SI-Materialien und -Methoden zur weiteren Diskussion).

Se-Konzentrationen für Bodenproben gemessen im Jahr 2016 vs. Se-Werte, die für denselben Standort aus einer Höhenlinienkarte aus den 1960er Jahren extrahiert wurden. Die Daten zum x Achse wurden aus einer kürzlich durchgeführten standardisierten geochemischen Bodenuntersuchung (27) erhoben ja Achsen wurden Mitte der 1960er Jahre als Höhenlinienkarte veröffentlicht (das genaue Datum ist unbekannt) (59). Die Karte aus den 1960er Jahren wurde in ArcGIS 10.2 digitalisiert und für jeden der Datenpunkte aus der jüngsten geochemischen Vermessung wurde die entsprechende Konzentration aus der digitalisierten Karte aufgezeichnet. Da die Daten innerhalb der Karte in Klassen unterteilt wurden, wurde jedem Punkt zufällig ein Konzentrationswert zugewiesen, der in den Bereich der Klasse fiel.

Die prädiktive Modellierung wurde mit drei Machine-Learning-Modellen (einem RF- und zwei künstlichen neuronalen Netzmodellen) durchgeführt (SI-Materialien und -Methoden). Jedes Modell wurde 1.000 Mal iteriert, wobei 90 % der Daten für das Modelltraining und 10 % der Daten für die Kreuzvalidierung für jede Iteration verwendet wurden. Die Trainings- und Kreuzvalidierungsdaten wurden für jede Iteration zufällig ausgewählt. Die Modellvorhersagen wurden gemittelt, um die jüngsten (1980–1999) globalen Se-Konzentrationen im Boden abzuschätzen, jedoch wurden Vorhersagen nur dann als gültig angesehen, wenn die Umweltparameter für jedes Pixel in den Bereich der beobachteten Daten passen (Abb. S5).

Sensitivitätsanalysen wurden während jeder Iteration durchgeführt, um die unabhängige Wirkung jeder Variablen auf die modellierten Se-Konzentrationen im Boden zu untersuchen. Basierend auf allen Eingangsvariablen wurden mittels einer zweistufigen Clusteranalyse drei Umweltzonen identifiziert (SI-Materialien und -Methoden). Basierend auf den Daten aus jeder Zone durften einzelne Parameter variieren, während alle anderen Variablen auf den Zonendurchschnitten konstant gehalten wurden. Durch die Verwendung verschiedener Zonen konnten wir die Reaktion von Boden-Se auf Veränderungen bestimmter Variablen unter verschiedenen Umweltbedingungen modellieren. Diese Analysen ermöglichten es uns, den wahrscheinlichsten Mechanismus zu identifizieren, der die Se-Konzentration im Boden beeinflusst, indem wir die Vorhersagen verschiedener Hypothesen (Tabelle S1) mit den in der Sensitivitätsanalyse beobachteten Mustern verglichen haben.