Mehr

Wie kann ich eine gültige Wahrscheinlichkeitskarte von Artenverteilungen basierend auf Anwesenheits-/Abwesenheitsdaten von mehreren Quadraten erstellen?


Ich bin etwas neu in GIS und fange gerade erst an, räumliche Statistik / Analyse zu lernen. Ich bin ein Student der Ökologie, der eine Vorher-Nachher-Studie über invasive Pflanzen und ihre Reaktionen auf Managementbemühungen durchführt. Zuerst sind hier ein paar Karten, um mein Design zu verdeutlichen und Verwirrung zu vermeiden.

Mein experimentelles Design besteht aus ~100 Transekten, die über einen Park verstreut sind. Jedes dieser Transekte hat 1 bis 10 Quadrate, die entlang seiner Länge 5 Meter voneinander entfernt sind, und jedes Quadrat hat eine Fläche von 1 m². Innerhalb jedes Quadrats wurde das Vorhandensein/Fehlen von 11 verschiedenen invasiven Arten dokumentiert, zunächst als Basisdaten im Jahr 2007 und erneut im Jahr 2014, um festzustellen, ob die Managementmaßnahmen im Park ihre Ausbreitung kontrollieren. Einige Bereiche des Parks haben jedoch Transekte, die sehr nahe beieinander (25 m voneinander entfernt) liegen, während andere Bereiche Transekte haben, die 50 m voneinander entfernt sind, und ich bin besorgt darüber, wie ich mit der möglichen Überabtastung und räumlichen Verzerrung in diesen eng beieinander liegenden Transekten umgehen soll . Ich hatte keine Kontrolle über das ursprüngliche Design und die Basisdatensammlung, und für mich ist dieses Design einfach nur hässlich.

Auf der Grundlage der von mir gesammelten Anwesenheits-/Abwesenheitsdaten möchte ich die Verbreitung jeder Art für jedes Jahr (22 Karten) kennen und in der Lage sein festzustellen, ob es statistisch signifikante Hotspots bestimmter invasiver Arten gibt oder ob bestimmte Arten vorhanden sind miteinander korreliert. Ich habe ArcGIS den Schwerpunkt für jedes Quadrat berechnen lassen, damit ich bei Bedarf sowohl Polygon- als auch Punkt-Features habe, um das Quadrat darzustellen. Bisher habe ich mehrere Kerneldichtekarten mit dem Schwerpunkt als Punktdaten und der Spalte mit Binärdaten (Anwesenheit = 1, Abwesenheit = 0) als Bevölkerungsfeld erstellt und den Suchradius leer gelassen, da ich mir nicht sicher bin, was um den variablen Abstand zwischen den Transekten zu ändern. Ich bin mir fast sicher, dass die Kerneldichte nicht das ist, was ich verwenden sollte, um diese Karte basierend auf dem, was ich bisher hier gelesen habe, zu generieren.

Hier ist ein Beispiel für eine Kerneldichte für Euonymus Fortuneii in 2007:

Qualitativ scheint es, dass diese Karten mit dem übereinstimmen, was ich beiläufig im Feld beobachte, aber ich brauche Rasterausgabedateien, die keine Schlüsselannahmen verletzen und der richtigen Modellierungsmethodik entsprechen. Ich benötige ein Ausgabe-Raster, mit dem ich quantitative Statistiken durchführen und Informationen zur Signifikanz erhalten kann. Nach dem, was ich gelesen habe, scheint es eine Interpolation zu sein, da ich eine Art von Kriging machen muss, aber ich bin mit diesen Techniken nicht vertraut. Ich habe jedoch die Lizenz, um alle notwendigen Erweiterungen in ArcGIS auszuführen und kann sie (hoffentlich) lernen, wenn ich muss.

Ich möchte auch Karten zur Erkennung von Veränderungen für jede Art erstellen, die Gebiete zeigen, in denen ihre Anwesenheit abgenommen hat und Gebiete, in denen sie zugenommen hat, und ob diese signifikant sind oder nicht. Ich habe das Raster-Rechner-Tool verwendet, um die 2007er Kerneldichte-Raster von den 2014er-Rastern zu subtrahieren, um eine Karte zu erstellen, die Bereiche mit abnehmendem Blau und Bereiche mit zunehmendem Rot zeigt.

Das kann ich allein anhand der Tabellenkalkulationsdaten sagen Alliaria petiolata hat die Präsenz im Jahr 2014 deutlich erhöht; es wurde 2007 in 76/464 Quadraten und 2014 in 176/464 Quadraten gefunden. Ich würde dies jedoch gerne in ArcGIS mit Rasterdateien tun können, und ich weiß, dass es einen Weg geben muss.


Während ich @ChrisW zustimmte, dass die Frage zu vage ist; Hier sind einige Hinweise, um Ihnen den Einstieg zu erleichtern. Es klingt, dass Kriging eine gute Option ist, insbesondere die Wahrscheinlichkeitskarte. Beachten Sie, dass jede Frage, die wörtlich zu wissen versucht, lautet: "Was ist ... oder ... wie man Kriging ausführt?" ist viel zu breit.

Bezüglich der Differenzkarte. Sie haben gut angefangen und können die Werte (1 und 0) zählen, um zu erhalten, wie viele Zunahmen/Abnahmen im Verhältnis zu den gesamten Zellen mit Änderungen (1 + 0 Zellen) aufgetreten sind. Dies ist der Fall, wenn Sie eine Attributtabelle des Rasters haben. Sie können diese Manipulation auch an Kriging-Ausgaben durchführen.

Beachten Sie, dass die Verwendung von Kriging oder jeder anderen Art von Interpolation hauptsächlich darauf abzielt, Werte oder andere Statistiken (z. B. Probs) für Zellen/Orte vorherzusagen, in denen Sie keine gemessenen Daten haben. In Ihrem Studium mag man sich fragen, ob dies Ihr Ziel ist.

Wenn Sie versuchen, die Ausbreitung invasiver Pflanzen ohne direkten menschlichen Eingriff oder durch vorbeugende Maßnahmen herauszufinden, müssen Sie möglicherweise Ihre Interpolation von Maßnahmen auf einen bestimmten Raum beschränken. z.B. Räume, die im Rahmen eines Präventivprogramms gepflegt wurden, Räume, die es nicht waren. Sie kann auch durch natürliche Barrieren für Pflanzen eingeschränkt werden; B. hohe Klippen oder Mikroklimazonen. Möglicherweise möchten Sie auch die Verwendung von Hilfsdaten in Betracht ziehen, um die Entfernung von jedem Transekt, das durch die Stichprobe repräsentiert wird, einzuschränken.


Hier ist ein Beispiel für Modellierungsansätze, die häufig verwendet werden, um die Artenverteilung abzuschätzen und zu kartieren. Praktiker werden auch ermutigt, nach vorhandenen Karten zur Verbreitung von Arten zu suchen und diese zu verwenden. Bei der Verwendung derzeit verfügbarer Artenverteilungskarten ist es jedoch für die Praktiker wichtig, die zur Erstellung der Karten verwendeten Daten und Methoden zu verstehen und zu melden.

Verallgemeinertes lineares Modell und logistisches Regressionsmodell
Überblick

Verallgemeinerte lineare Modellansätze (GLM) verwenden Methoden der kleinsten Quadrate, um die Beziehung zwischen dem Mittelwert der Antwortvariablen und der Linearkombination der erklärenden Variablen anzupassen. Die Antwortvariablen für Verbreitungsmodelle werden normalerweise durch einfache Beobachtungen des Vorkommens, des Vorkommens/Abwesens oder der Abundanz von Arten an geografischen Standorten basierend auf zufälligen oder geschichteten Feldproben, Expertenmeinungen oder opportunistisch gewonnenen Beobachtungen dargestellt. Erklärende Variablen in diesem Ansatz stellen Umweltdaten dar, von denen angenommen wird, dass sie sich direkt oder indirekt auf Arten auswirken (Austin 2007) . Die angenommene Beziehung zwischen Antwortvariablen und erklärenden Variablen wird mit einer von mehreren Linkfunktionen definiert, die die Wahrscheinlichkeitsverteilungen beschreiben (z. B. Normal-, Poisson-, negative Binomial- oder Gammaverteilung) (Guisan et al. 2002).

Die logistische Regression ist eine spezielle Art von GLM, die verwendet wird, um zu bewerten, wie eine Reihe von Umweltvariablen das Vorhandensein einer Art vorhersagen. Die Artendaten werden in binomialen Antworten (Anwesenheit oder Abwesenheit) für jeden beprobten Bereich zusammengefasst. Das logistische Regressionsmodell schränkt die Wahrscheinlichkeit der Anwesenheit und Abwesenheit zwischen null und 1 mit einer Logit-Link-Funktion ein und nimmt an, dass der Fehlerterm eine Binomialverteilung hat.

Datenanforderungen

Sowohl das GLM als auch das logistische Regressionsmodell erfordern Feldbeobachtungen und Messungen von Umweltfaktoren, von denen erwartet wird, dass sie die Verteilung des Organismus beeinflussen. Die Umweltdaten können mit in-situ-Feldprobenverfahren oder mit Fernerkundungsmethoden erhoben werden.

Stärken

GLM (und logistische Regression) werden seit langem in der biologischen Forschung für eine Vielzahl von Studien verwendet, um die Verbreitung von Arten abzuschätzen (Guisan und Thuiller 2005) . Der Ansatz erlaubt viel Flexibilität bei der Auswahl der Umgebungsdaten. Dieser Ansatz ermöglicht es Forschern, mehrere Arbeitshypothesen zu testen, indem sie Methoden der maximalen Wahrscheinlichkeit verwenden, um das sparsamste Modell zu bestimmen, das am besten zu den beobachteten Daten passt.

Schwächen/Annahmen

GLM-Modelle sind abhängig von der Datenqualität und der Struktur der vom Forscher entwickelten Kandidatenmodelle. Die logistische Regressionsanalyse hängt von der Annahme ab, dass eine Art nicht dort auftritt, wo sie als abwesend gilt (im Gegensatz zu vorhanden, aber unentdeckt). Es kann Unsicherheit darüber bestehen, ob die Standorte umfassend genug beprobt wurden, um sicherzustellen, dass keine Personen anwesend sind.

Auch können falsche Ergebnisse auftreten, wenn die Umgebungsvariablen wenig oder keinen Einfluss auf die Antwortvariable haben (Burnham und Anderson 2002) .

  1. Es wird angenommen, dass der Fehler jeder Umgebungsvariablen identisch und unabhängig verteilt ist
  2. Die Varianz der Antwortvariablen ist über die Beobachtungen hinweg konstant
  3. Es wird angenommen, dass der Fehler jeder Umgebungsvariablen den ausgewählten Verknüpfungsfunktionen folgt, die die Wahrscheinlichkeitsverteilung beschreiben
  4. Die Regressionsfunktion ist in den Prädiktoren linear
Benötigte Kapazität (Modell erstellen und ausführen)

Regressionsmodelle sind mit Hilfe vieler Statistikpakete (z. B. SAS und R) relativ einfach zu konstruieren, auszuführen und zu interpretieren.

Belegungsmodelle
Überblick

Ein Ansatz der Belegungsmodellierung schätzt die Verteilung oder den Anteil der von einer Art besetzten geografischen Standorte (MacKenzie et al. 2002) . Da die Wahrscheinlichkeit, eine Art zu beobachten, sehr hoch sein kann (MacKenzie et al. 2002) . Bei mehreren Besuchen vor Ort, um die Art zu entdecken, schätzt dieser Ansatz die Wahrscheinlichkeit, dass eine Art vor Ort entdeckt wird, wenn die Wahrscheinlichkeit gegeben ist, dass sie vorhanden ist (Mackenzie et al. 2005) .

Datenanforderungen

Die Besiedlung einer Art innerhalb eines Standorts und die Verteilung zwischen Standorten beinhaltet mehrere Besuche an Standorten, wenn eine Art nachweisbar ist (MacKenzie et al. 2002) . Bei diesem Ansatz können die Standorte diskrete Habitat-Patches oder Probenahmeeinheiten (z. B. Quadrate) darstellen, die regelmäßig im Rahmen eines groß angelegten Monitoringprogramms besucht werden. Jede Erhebung wird in diskreten Zeiträumen durchgeführt, in denen ein Untersucher aufzeichnet, ob die Art bei jeder Gelegenheit anwesend oder abwesend war. Der Satz von Entdeckungshistorien für jeden Standort wird verwendet, um den Anteil der von der Art besetzten Standorte abzuschätzen. Ermittler können auch Merkmale auf Standortebene (z. B. Fläche und vorherrschende Vegetation) und Umweltvariablen erfassen, von denen erwartet wird, dass sie die Wahrscheinlichkeit des Nachweises von Organismen beeinflussen (z. B. Wetterbedingungen und Zeitpunkt der Probenahme).

Stärken

Der Ansatz der Belegungsmodellierung lässt sich einfacher und kostengünstiger implementieren als die Methoden der Häufigkeitsschätzung. Darüber hinaus kann die Belegungsmodellierung auf großräumige Überwachungsprogramme angewendet werden, um die räumliche Verteilung der Arten in einer Region zu bestimmen. Kovariaten, von denen erwartet wird, dass sie die Erkennung oder Belegung beeinflussen, können leicht in das Belegungsmodell aufgenommen werden, um die Heterogenität bei der Wahrscheinlichkeitserkennung und die unterschiedliche Belegung nach Standort zu berücksichtigen. Verpasste Stichprobenereignisse können angepasst werden, indem das Maximum-Likelihood-Modell, das die Anwesenheitswahrscheinlichkeit schätzt, leicht modifiziert wird.

Schwächen/Annahmen

Eine der Hauptschwächen dieser Methode ist die Notwendigkeit vieler Besuche auf einer einzigen Site. Für einige Studiensysteme kann dies logistisch schwierig und zeitaufwendig sein. Habitat Patches müssen vom Ermittler abgegrenzt werden. Eine Erhöhung der Anzahl der Besuche pro Site verbessert jedoch die Genauigkeit der geschätzten Belegungsrate, und die resultierende Zunahme an Informationen verbessert die Genauigkeit der Schätzung, wenn die Erkennungswahrscheinlichkeiten gering sind (MacKenzie et al. 2002) . Dieser Ansatz liefert nur Informationen über die Belegung eines Patches und keine Informationen über die Populationsdynamik oder die Häufigkeit der Arten im Patch. Daher ist es schwierig, diese Daten zu verwenden, um über die Lebensfähigkeit der Bevölkerung zu spekulieren.

  1. Die Standorte sind während der Probenahme für Belegungsänderungen geschlossen (d. h. geschlossenes System). Die Standorte werden für die Dauer des Erhebungszeitraums von den interessierenden Arten besetzt, ohne dass nach Beginn der Vermessung neue Standorte besetzt werden und keine Standorte vor Beendigung der Vermessung aufgegeben werden
  2. Es wird auch angenommen, dass der Nachweis der Art an einem Standort unabhängig vom Nachweis der Art an allen anderen Standorten ist.
  3. Arten werden niemals fälschlicherweise an einer Stelle nachgewiesen, wenn sie abwesend sind, und eine Art kann an einer Stelle nachgewiesen werden oder nicht, wenn sie vorhanden ist.
Benötigte Kapazität

Die Entwicklung des Belegungsmodellierungsansatzes hat zu einer detaillierten Dokumentation geführt, die Probenahmeverfahren und Analysen beschreibt (Mackenzie et al. 2005) . Zusätzlich steht ein kostenlos herunterladbares Programm PRESENCE zur Analyse der Daten zur Verfügung (Version 3.1)

Modelle mit maximaler Entropie
Überblick

Ein Modellierungsansatz der maximalen Entropie (MaxEnt), der einen maschinellen Lernalgorithmus verwendet, um die geografische Verteilung einer Art basierend auf Standorten bekannter Vorkommen und Schichten von Umweltdaten vorherzusagen (Elith et al. 2006, Phillips et al. 2006). Der Ansatz der maximalen Entropie-Modellierung schätzt die Artenverteilung, indem die maximale Entropieverteilung (d. h. am nächsten zur einheitlichen) Verteilung ermittelt wird, die durch die Umweltdaten in Verbindung mit bekannten Standorten der Arten eingeschränkt wird (Phillips et al. 2006).

Datenanforderungen

Die Modellierung maximaler Entropie erfordert zwei Arten von Eingabedaten, die geografischen Koordinaten der Artenvorkommen und geografisch explizite Umweltvariablen, die wahrscheinlich die Verbreitung einer Art auf der relevanten räumlichen und zeitlichen Skala beeinflussen (Phillips et al. 2006) . Vorkommensorte müssen nur Präsenzaufzeichnungen (z. B. Naturkundemuseum oder Herbarium) darstellen, und es werden mindestens 50 bis 100 Vorkommensorte empfohlen, um Vorhersagen nahe der optimalen Verteilung zu erhalten (Phillips et al. 2006).

Stärken
  1. Für Artenvorkommen sind nur Anwesenheitsdaten erforderlich
  2. Umgebungsraster können kontinuierliche und kategoriale Informationen enthalten
  3. Es gibt einen effizienten deterministischen Algorithmus, um die optimale Wahrscheinlichkeitsverteilung zu erhalten, wodurch Unsicherheitsanalysen überflüssig werden
  4. Überanpassung von Merkmalen kann durch Anpassen der Regularisierungsparameter vermieden werden
  5. Eines der Ausgabeprodukte ist eine durchgehende Karte, die eine feine Unterscheidung zwischen der Artenverteilung in der gesamten Region ermöglicht
  6. Bietet Einblick in die relative Bedeutung und Beziehung jedes Umweltmerkmals zur Vorhersage der Artenverteilung
Schwächen/Annahmen

Für die gesamte Landschaft müssen Karten (georeferenzierte Daten) der Umweltvariablen oder Kovariaten, die Umweltbedingungen darstellen, verfügbar sein. Außerdem sollten die Umweltvariablen und die Fundorte der Arten für ähnliche Zeiträume gemessen werden (Phillips et al. 2006) . Die Anzahl der Umweltvariablen, die in Verbindung mit den Vorkommensstandorten verwendet werden, reicht möglicherweise nicht aus, um die Artenverteilung zu beschreiben. Die Vorkommensorte können verzerrt oder räumlich autokorreliert sein, oder die Stichprobenintensität/-methoden können im Untersuchungsgebiet stark variieren (Phillips et al. 2006) . Beispielsweise können Museumsproben in der Nähe von Straßen und in einem kleinen Teil der Bevölkerung gesammelt worden sein. Auch bei der Erfassung der Vorkommensorte kann es zu Fehlern kommen oder die Art wurde bei Feldbeobachtungen falsch identifiziert.

Benötigte Kapazität

Um sicherzustellen, dass alle Umweltdaten das gleiche Format (Projektion, Umfang und Auflösung) haben, sind GIS-Grundkenntnisse erforderlich. Zur Analyse der Vorkommensorte und Umweltraster steht ein frei herunterladbares Programm Maxent zur Verfügung.

Wahrscheinlichkeitsfunktionen für die Ressourcenauswahl
Überblick

Eine Ressourcenauswahlwahrscheinlichkeitsfunktion (RSPF) ist eine mathematische Funktion, die die Nutzung von Ressourcen oder Lebensräumen durch eine Art im Verhältnis zur Verfügbarkeit der Ressourcen oder Lebensräume vorhersagt (Manly et al. 2002) – daher ein Maß für die Habitateignung. Der Ansatz verwendet Standortdaten zum Vorkommen von Arten, um abzuschätzen, wo die Habitatnutzung die Verfügbarkeit übersteigt. RSPF kann viele mathematische Formen annehmen (Manly et al. 2002), aber die logistische Regression ist die am häufigsten verwendete Form, um die Habitateignung abzuschätzen.

Datenanforderungen
  1. Koordinaten von Artenbeobachtungen, sogenannte Gebrauchsorte
  2. Koordinaten der Standorte, an denen die Art innerhalb des Untersuchungsgebiets vorkommen kann, um potenzielle Habitate zu definieren, die als verfügbare Standorte bekannt sind. Diese werden normalerweise als zufällige Teilmenge von Punkten innerhalb des Heimatbereichs einer Person definiert individual
  3. Umweltdaten, von denen erwartet wird, dass sie die Artenverteilung beeinflussen
Stärken

RSPF sind flexibel genug, um die Umgebungsdaten mit einer Vielzahl funktionaler Beziehungen (z. B. Polynomterme und Wechselwirkungen) zu parametrisieren. Dieser Ansatz passt leicht in das Maximum-Likelihood-Framework mit Modellauswahl, um zu bestimmen, welche Umweltvariablen die Artenverteilung beeinflussen. Ein RSPF-Ansatz ermöglicht es Forschern, Umweltvariablen, die im "besten" Modell geschätzt werden, leicht zu interpretieren. Die Analyse kann auf mehreren ökologischen Ebenen (Individuum, Population oder Art) durchgeführt werden.

Schwächen

Die Modellausgabe kann empfindlich auf Stichproben verfügbarer Standorte in Bezug auf beobachtete genutzte Standorte reagieren.

Benötigte Kapazität

GIS-Grundkenntnisse. Ein GIS-Tool zur Ausführung von RSPF wurde vom Yellowstone Ecological Research Center entwickelt.

Multivariate Modelle
Überblick

Ein häufig verwendeter multivariater Modellierungsansatz zur Schätzung der Artenverteilung ist die Mahalanobis-Distanz (MD). MD ist ein dimensionsloses Maß für die Unähnlichkeit, indem es den quadratischen Standardabstand zwischen einer Reihe von Umweltvariablen und der idealen Habitatqualität darstellt (Clark et al. 1993) . Eine Distanzschwelle wird dann verwendet, um die Grenze der Artenverteilung zu definieren (Tsoar et al. 2007) . Bei der Kartierung der Artenverteilung in Bezug auf die Habitatqualität kann die MD-Metrik verwendet werden, um jede Zelle in der Habitatkarte relativ zu einer statistischen Beschreibung der von einer Art genutzten Lebensräume einzuordnen. Jede Zelle auf der MD-Habitatskarte ist relativ zu dem Vektor, der die multivariaten Merkmale der Habitate in den Zellen beschreibt, in denen sich die Art befand.

Datenanforderungen

Daten zum Vorkommen von Arten. Umweltdaten, von denen erwartet wird, dass sie die Artenverteilung beeinflussen.

Stärken

Umweltvariablen können korreliert werden und die Annahme einer multivariaten Normalität muss nicht erfüllt werden, da MD neue und unkorrelierte Variablen erzeugt (Clark et al. 1993, Knick und Dyer 1997) . Umweltdaten können kontinuierlich oder kategorial sein.

Schwächen/Annahmen

Der MD-Ansatz geht davon aus, dass die Art bei den mittleren Umweltbedingungen optimal verteilt ist und jede Abweichung von den mittleren (optimalen) Bedingungen mit einer geringeren Eignung verbunden ist (Farber und Kadmon 2003) . Ähnlich wie bei vielen multivariaten Analysen kann es schwierig sein zu interpretieren, wie sich die Umweltvariablen direkt auf die Artenverteilung beziehen.

Benötigte Kapazität

Eine Fläche, die die Mahalanobis-Distanz für die Artenverteilung darstellt, kann mit statistischer Software (z. B. R oder SAS) berechnet werden. Diese Analyse kann auch mit multivariater Statistiksoftware wie PCord durchgeführt werden.

Expertenmeinung
Überblick

Wenn die Datenlage begrenzt ist, können Forscher Expertengruppen konsultieren, um die Artenverteilung subjektiv abzugrenzen oder Umweltmerkmale zu definieren, die die Artenverteilung beeinflussen.Expertenmeinungen können in die Modellierung der Artenverteilung einfließen, indem sie in die Datenaufbereitung einfließen, verdächtige Aufzeichnungen von Artenvorkommen identifizieren, relevante Umweltmerkmale auswählen, die die Artenverteilung beeinflussen, verschiedene Modelle entwickeln oder die Vegetation in Habitateignungsklassen einteilen (Pearce et al. 2001) .

Datenanforderungen

Dieser Ansatz erfordert eine begrenzte Felddatensammlung. Es ist jedoch ein zeitaufwändiger Prozess, Experten für verschiedene Ökosysteme oder Arten zu identifizieren und zu befragen. Die veröffentlichte Literatur (peer-reviewed Artikel und Berichte) sollte ebenfalls überprüft werden, um die Informationen von Expertenmeinungen zu ergänzen. Wenn Expertenmeinungsmodelle räumlich dargestellt werden, werden alle relevanten Umweltmerkmale in einer Geodatenschicht wie Raster oder Vektoren benötigt.

Stärken

Da es wenig oder keine Felddatenerfassung gibt, ist diese Methode relativ kostengünstig. Für einige Arten und Ökosysteme stehen Experten mit umfangreichem Wissen aus jahrzehntelanger Felderfahrung zur Verfügung.

Schwächen

Für viele seltene und staatlich geschützte Arten gibt es nur begrenzte Veröffentlichungsinformationen oder verfügbares Expertenwissen. Wenn Experten zur Verfügung stehen, kann es schwierig sein, den Grad ihres Fachwissens zu bewerten und Interviewtechniken zu standardisieren. Obwohl dies im Hinblick auf die begrenzte Felddatensammlung ein kosteneffektiver Ansatz ist, kann die Einbeziehung von Expertenmeinungen in die Verbreitungsmodellierung ein langsamer und mühsamer Prozess sein und wird normalerweise auf einer Art-für-Art-Basis durchgeführt (Seoane et al. 2005) . Aus Expertenmeinungen erstellte Verteilungsmodelle werden selten mit unabhängigen Daten validiert. Daher ist im Modell ein hohes Maß an Unsicherheit vorhanden, bis Beobachtungen das Vorkommen der Art in Bezug auf die Umwelt bestätigen.

Um einige der Unsicherheiten bei unterschiedlichen Expertenmeinungen anzugehen, können mit Expertenmeinungen erstellte Artenverteilungsmodelle einer von Saaty (Saaty TL, 1980) entwickelten paarweisen Vergleichstechnik (Analytic Hierarchy Process) unterzogen werden, bei der Experten die relative Bedeutung jeder Variablen einstufen paarweise mit einer kontinuierlichen Skala. Beispielsweise wählt jeder Experte in jedem der paarweisen Vergleiche die als wichtiger erachtete Variable aus und ordnet die Wichtigkeit der ausgewählten Variablen im Vergleich zu den anderen auf einer Skala von 1 (gleich wichtig) bis 9 (extrem wichtiger) ein. Die paarweisen Vergleiche werden in eine Rangmatrix basierend auf dem Analytic Hierarchy Process-Modell umgewandelt. Diese Ränge können berechnet werden, indem der Durchschnitt der Umfrageergebnisse aller Befragten für jeden paarweisen Vergleich gebildet wird, um die relative Bedeutung jeder Variablen gegenüber einer anderen Variablen darzustellen.

Benötigte Kapazität

Neben der Suche und Befragung von Experten erfordert die Modellierung der Artenverteilung mit Expertenmeinungen in der Regel GIS-Kenntnisse, um eine Karte zu erstellen, die relevante Umweltmerkmale überlagert, von denen erwartet wird, dass sie die Artenverteilung beeinflussen.


Einführung

Ein zentrales Thema in Ökologie und Naturschutzbiologie ist die Bestimmung der Verteilung der Arten im Weltraum. Da das Aussterberisiko mit der Größe des Verbreitungsgebiets verbunden ist [1], bestimmt eine signifikante Reduzierung eines Artenspektrums häufig die Änderung des Erhaltungszustands (siehe beispielsweise IUCN-Kriterien [2], [3]) und vorrangige Erhaltungsmaßnahmen [4], [5] . Ebenso konzentrieren sich Schutzgebiete meist auf Biodiversitäts-Hotspots [6], um möglichst viele Arten effizient zu erhalten [7]–[9]. Naturschützer benötigen daher oft genaue Einschätzungen der Artenverbreitung. Über die einfache Verbreitungsbeschreibung hinaus ist die Identifizierung der Hauptfaktoren, die die Verteilungen begrenzen, unerlässlich, um den Nutzen des Naturschutzmanagements effizient vorherzusagen. Um diesen Fragen nachzugehen, wurden seit den 1980er Jahren verschiedene Methoden des Artenverteilungsmodells (SDM), auch bekannt als ökologisches Nischenmodell (ENM) [10], entwickelt [11].

Das Prinzip von SDM besteht darin, bekannte Standorte einer Art mit den Umwelteigenschaften dieser Standorte in Beziehung zu setzen, um die Antwortfunktion und den Beitrag von Umweltvariablen zu schätzen [12] und die potenzielle geografische Reichweite einer Art vorherzusagen [13]. Diese Modelle schätzen die grundlegende ökologische Nische im Umweltraum (d.h. Artenantwort auf abiotische Umweltfaktoren [14]) und projiziert sie auf den geografischen Raum, um die Wahrscheinlichkeit des Vorkommens für ein bestimmtes Gebiet abzuleiten oder, je nach Methode, die Wahrscheinlichkeit, dass bestimmte Umweltbedingungen für die Zielart geeignet sind [15]. Verbreitungsmodelle werden von Naturschutzpraktikern verwendet, um die am besten geeigneten Gebiete für eine Art abzuschätzen und die Wahrscheinlichkeit des Vorkommens in Regionen abzuleiten, in denen keine systematischen Erhebungen verfügbar sind [16]. Sie können auch die potenzielle Ausbreitung eingeführter Arten in neu besiedelten Gebieten beurteilen [17], [18], das zukünftige Verbreitungsgebiet einer Art unter dem Klimawandel abschätzen [18], [19] oder bei der Reservatplanung helfen [20].

Es gibt mehrere statistische Modelle, um die Verbreitung einer Art vorherzusagen [21]. Jenseits klassischer Regressionsmethoden (Resource Selection Function RSF [22], [23], Generalized Linear Models GLM [24]), algorithmische Modellierung basierend auf maschinellem Lernen (z. B. Artificial Neural Networks [25], Maximum Entropy MAXENT [26], Classification Und Regression Trees CART [27]) sind in den letzten Jahren immer beliebter geworden. Unter diesen wurde MAXENT als besonders effizient im Umgang mit komplexen Interaktionen zwischen Antwort- und Prädiktorvariablen beschrieben [15], [28] und als wenig empfindlich gegenüber kleinen Stichprobengrößen [29]. Dies sowie die extreme Benutzerfreundlichkeit haben MAXENT zum am weitesten verbreiteten SDM-Algorithmus gemacht. Im Dezember 2013 wurden 1886 Zitate des die Methode beschreibenden Artikels [30] im Web of Science veröffentlicht.

Die MAXENT-Modellierung und SDM im Allgemeinen werden heute häufig in konservierungsorientierten Studien eingesetzt [31]. Regionale oder kontinentweite Studien werden durch die jüngste Verfügbarkeit globaler Datensätze erleichtert. Umweltschichten, wie die im WorldClim-Projekt entwickelten globalen Klimavariablen [32], bieten eine kontinuierliche Beschreibung sehr großer Gebiete [33]. In ähnlicher Weise erhöht die Entwicklung offener Biodiversitätsdatenbanken (siehe zum Beispiel die Global Biodiversity Information Facility, GBIF, http://www.gbif.org) die räumliche Abdeckung von Feldbeobachtungen, die durch ein einzelnes Projekt hätten gesammelt werden können, um ein Vielfaches. Solche Datenbanken liefern normalerweise nur Präsenzdaten, die mit Modellierungsmethoden wie MAXENT verarbeitet werden können.

Allerdings weisen Datensätze, die aus opportunistischen Beobachtungen oder Museumsaufzeichnungen und nicht aus geplanten Erhebungen stammen, häufig eine starke geografische Verzerrung auf [34], wobei einige Gebiete aufgrund ihrer Zugänglichkeit [35] oder ihres naturalistischen Interesses häufiger besucht werden als andere. Diese ungleiche Erfassung einer Artenverteilung wird oft als Stichprobenverzerrung, Stichprobenauswahlverzerrung oder Erhebungsverzerrung bezeichnet. Die Qualität des Modells kann stark beeinträchtigt werden, wenn ganze Teile des für eine Art geeigneten Umweltraums fehlen oder im Erhebungsdatensatz schlecht repräsentiert sind [36], [37] oder alternativ, wenn einige Gebiete aufgrund lokal hoher Stichproben überrepräsentiert sind Bemühungen. Mehrere Studien hinterfragten die Wirkung des Stichprobendesigns [38] oder die verzerrte Natur von Museums- und Herbarium-Datensätzen [39] auf die prädiktive Leistung von SDMs. Überraschenderweise wurde die Frage der Quantifizierung und Korrektur von Stichprobenverzerrungen trotz ihrer entscheidenden Bedeutung nur unzureichend behandelt. Obwohl die Autoren darauf hingewiesen haben, dass die Verteilung der Standorte im geografischen und/oder ökologischen Raum die Zuverlässigkeit des Modells beeinträchtigen kann [35], [36], [40]–[43], kann der potenzielle Effekt des Stichprobenfehlers im Datensatz wird meist wenig oder gar nicht berücksichtigt. Es können jedoch sehr unterschiedliche SDM-Ergebnisse generiert werden, die zu gegensätzlichen Schlussfolgerungen führen, ob Stichprobenverzerrungen korrigiert werden oder nicht [44], was SDM-Studien, die dieses Thema nicht berücksichtigten, sehr zweifelhaft macht.

Hinsichtlich des erheblichen Einflusses des Sampling-Bias auf die Vorhersagefähigkeit von SDM haben Araújo et al. [45] betrachteten die Verbesserung des Stichprobendesigns als eine der fünf größten Herausforderungen für die zukünftige Entwicklung von SDMs. Es wurden mehrere Verfahren zur Korrektur von Verzerrungen vorgeschlagen [46]–[51], die jedoch bisher selten verwendet wurden. Der Vergleich und die Bewertung verschiedener Methoden zur Korrektur von Stichprobenverzerrungen wurden erst vor kurzem durchgeführt, und es gab keine einvernehmliche Leitlinie zu deren Lösung. Einige neuere Studien untersuchten die Konsequenzen und mögliche Lösungen zur Korrektur von Stichprobenfehlern (von Syfert et al. [41], Kramer-Schadt [52], Varela et al. [53] und Boria et al. [54]). Trotz ihres Interesses untersuchten die Autoren eine einzelne Fallstudie, so dass es nicht möglich ist, die Effizienz einer Korrekturmethode artenübergreifend zu bewerten. Zweitens wurde die empirische Verzerrung durch die Stichprobenintensität [41] nie getestet und es wurden nicht mehr als zwei Korrekturtechniken gleichzeitig evaluiert, während in der Literatur viel mehr vorgeschlagen oder verwendet wurden [47] [49] [55 ]. Daher wurde der Einfluss der Art und Intensität des Bias auf die Fähigkeit verschiedener Techniken zur Korrektur des Sampling-Bias nicht untersucht. Dies bleibt jedoch ein kritischer Punkt, insbesondere für Benutzer, die robuste und zuverlässige SDM-Vorhersagen benötigen, wie beispielsweise Naturschutzpraktiker.

Das Ziel dieser vergleichenden Studie ist es, den Einfluss des Bias-Typs, der Bias-Intensität und der Korrekturmethode auf die Leistung des MAXENT-Modells zu testen. Im Gegensatz zu den zuvor zitierten Studien [41], [52]–[54] bewerteten wir die Leistung von fünf Methoden zur Korrektur von Verzerrungen, die unter verschiedenen Bedingungen von Verzerrungstyp und -intensität am häufigsten verwendet wurden. Wir verwendeten eine virtuelle Spezies, um vier Arten von Sampling-Bias und drei Bias-Intensitäten zu generieren, und wendeten auf diese verzerrten Datensätze verschiedene Korrekturen an. Wir quantifizierten die relative Korrekturleistung über den Bereich der Bias-Bedingungen und über die Arten hinweg. Das gleiche Framework wurde auch auf zwei reale Datensätze angewendet. Der vollständige Arbeitsablauf, der den Analysen zugrunde lag, ist in Abbildung 1 skizziert. Daher bietet die vorliegende Studie erstmals eine umfassende Multi-Spezies-Bewertung der gängigsten Methoden der Sampling-Bias-Korrektur unter verschiedenen Bias-Szenarien und -Intensitäten. Diese Arbeit richtet sich an Naturschützer, die MAXENT regelmäßig verwenden. Wir erwarten, dass diese Arbeit Einblicke in die Auswahl der am besten geeigneten Methoden bietet, um zuverlässige Verteilungsmodelle mit verzerrten Datensätzen zu erstellen. Darüber hinaus ermutigt es Modellierer, Verbesserungen von Techniken zur Korrektur von Stichprobenverzerrungen zu entwickeln, die für die Vielzahl der verfügbaren Modellierungsmethoden geeignet sind.

Originaldatensätze einer virtuellen und 2 realen Spezies wurden verändert, um 12 Bias zu erzeugen, die 4 Bias-Typen und 3 Bias-Intensitäten kombinieren. Fünf Methoden zur Korrektur der Stichprobenabweichung wurden verwendet, um die Verbesserung der modellierten Verteilung im Vergleich zur ursprünglichen Verteilung mit MAXENT zu beurteilen. Die Korrekturleistung wurde unter Verwendung von AUC und 3 Überlappungsmaßen zwischen dem korrigierten und dem ursprünglichen unverzerrten Modell bewertet.


Integrierte Artenverteilungsmodelle: Kombination von Präsenz-Hintergrunddaten und Standortbelegungsdaten mit unvollständiger Erkennung

Vira Koshkina*

, Yan Wang

, Ascelin Gordon

, Robert M. Dorazio

, Mattweiß

Und Lewis

Stein

1Mathematische Wissenschaften, School of Science, RMIT University, Melbourne, Vic., Australien2Schule für Global, Urban und Social

Studium, RMIT University, Melbourne, Vic., Australien3USGS Wetland and Aquatic Research Center, Gainesville, FL, USA

4Arthur Rylah Institute for Environmental Research, Department of Environment, Land, Water and Planning, Arthur Rylah

Institute for Environmental Research, Melbourne, Vic., Australien and5Biomathematics Unit, Department of Zoology, Faculty of Life Science, Tel Aviv University, Tel Aviv, Israel

1. Zwei Hauptdatenquellen für Artenverteilungsmodelle (SDMs) sind Standortnutzungsdaten (SO) aus geplanten Erhebungen und Präsenz-Hintergrunddaten (PB) aus opportunistischen Erhebungen und anderen Quellen. SO-Erhebungen liefern qualitativ hochwertige Daten über das Vorkommen und das Fehlen der Art in einem bestimmten Gebiet. Aufgrund ihrer hohen Kosten decken sie jedoch im Vergleich zu PB-Daten oft einen kleineren Bereich ab und sind in der Regel nicht repräsentativ für die geografische Reichweite einer Stadt. Im Gegensatz dazu sind PB-Daten reichlich vorhanden, decken einen größeren Bereich ab, sind jedoch aufgrund fehlender Informationen über das Fehlen von Arten weniger zuverlässig und zeichnen sich in der Regel durch verzerrte Stichproben aus. Hier präsentieren wir einen neuen Ansatz zur Modellierung der Artenverteilung, der diese beiden Datentypen integriert.

2. Wir haben einen inhomogenen Poisson-Punkt-Prozess als Grundlage für die Konstruktion eines integrierten SDM verwendet, das sowohl PB- als auch SO-Daten gleichzeitig passt. Es ist die erste Implementierung eines integrierten SO-PB-Modells, das wiederholte Vermessungsbelegungsdaten verwendet und auch die Erkennungswahrscheinlichkeit berücksichtigt.

3. Die Leistung des Integrierten Modells wurde anhand simulierter Daten bewertet und mit Ansätzen verglichen, die allein PB- oder SO-Daten verwenden. Es erwies sich als überlegen und verbessert die Vorhersagen der räumlichen Verteilung der Arten, selbst wenn SO-Daten spärlich sind und in einem begrenzten Gebiet gesammelt werden. Das Integrierte Modell erwies sich auch als effektiv, wenn Umweltkovariaten signifikant korreliert wurden. Unsere Methode wurde mit realen SO- und PB-Daten für den Gelbbauchsegler (Petaurus australis) im Südosten Australiens demonstriert, wobei die Vorhersageleistung des Integrierten Modells erneut als überlegen befunden wurde.

4. PB-Modelle sind dafür bekannt, verzerrte Schätzungen der Artenbelegung oder -abundanz zu erzeugen. Die kleine Stichprobengröße von SO-Datensätzen führt oft zu schlechten Vorhersagen außerhalb der Stichprobe. Integrierte Modelle kombinieren Daten aus diesen beiden Quellen und liefern im Vergleich zur alleinigen Verwendung einer der beiden Datenquellen bessere Vorhersagen der Artenhäufigkeit. Im Gegensatz zu herkömmlichen SDMs, die eine restriktive Skalenabhängigkeit in ihren Vorhersagen aufweisen, basiert unser Integriertes Modell auf einem Punktprozessmodell und weist keine solche Skalenabhängigkeit auf. Es kann für Vorhersagen der Häufigkeit auf jeder räumlichen Skala verwendet werden, während die zugrunde liegende Beziehung zwischen Häufigkeit und Fläche erhalten bleibt.

Schlüsselwörter: unvollkommene Erkennung, Belegungsmodell, Anwesenheitshintergrund, Stichprobenverzerrung, Standortbelegung, räumlicher Punktprozess, Artenverteilungsmodelle

Artenverteilungsmodelle (SDM) sind zu einem immer wichtigeren Forschungsinstrument in den Umwelt- und Umweltwissenschaften geworden. Diese Modelle werden verwendet, um die räumliche Verteilung des Vorhandenseins oder der Häufigkeit von Arten basierend auf den Standorten beobachteter Individuen vorherzusagen. Regressionsmodelle angepasst an

ortsspezifische messungen von umweltkovariaten wie temperatur, niederschlag oder höhe sind die grundlage für vorhersagen an einem bestimmten ort. Diese Vorhersagen können für verschiedene Umweltszenarien leicht berechnet werden, indem die Umwelteinträge des SDM so modifiziert werden, dass sie hypothetische Klimawandelszenarien und Veränderungen der Landschaftsmerkmale widerspiegeln. In einigen Kontexten können SDMs verwendet werden, um Veränderungen im Laufe der Zeit zu untersuchen (Elith & Leathwick 2009 Hefley & Hooten 2016). Die Vorhersagefähigkeit dieser Modelle gibt ihnen ein breites Spektrum an Naturschutzanwendungen, einschließlich des Managements bedrohter Arten, Naturschutzplanung,

*Korrespondenz Autor. E-Mail: [email protected] [Korrekturhinweis: Der Artikeltitel wurde am 25. April 2017 geändert]

sowie die Vorhersage der wahrscheinlichen Verbreitungsgebiete invasiver Arten (Elith & Leathwick 2009 Guillera-Arroita et al. 2015). Unser Ziel in diesem Papier ist es, eine neue Klasse integrierter SDMs zu entwickeln und zu testen, die zwei verschiedene Arten von ökologischen Datensätzen (Presence Background und Site Occupancy) integriert und gleichzeitig die unvollständige Erkennung von Individuen, eine häufige Fehlerquelle in ökologischen Umfragen (Guillera-Arroita et al. 2014 Iknayan et al. 2014).

Für die Modellierung der Artenverteilung stehen oft nur Daten zur Verfügung, an denen Individuen der untersuchten Art beobachtet wurden, aber in der Regel gibt es keine Informationen über Abwesenheiten, dh Orte, die erfasst wurden und die Art nicht beobachtet worden. Diese Art von Daten wird oft als reine Präsenzdaten bezeichnet, aber hier bezeichnen wir sie als „Präsenz-Hintergrund“-Daten (PB), da Vorhersagen mit dieser Art von Daten Hintergrund-Umweltinformationen für Gebiete erfordern, in denen Präsenzen vorhanden sind nicht beobachtet worden. Für viele Untersuchungsgebiete sind PB-Daten aus den sogenannten „opportunistischen Erhebungen“ reichlich verfügbar und finden sich in Museums- und Herbariumsammlungen, historischen Datenbankeinträgen (Pearce & Boyce 2006) und werden nun zunehmend über Online-Repositorien wie z die Global Biodiversity Information Facility (http://www.gbif.org). Trotz zahlreicher Versuche ist es jedoch nicht möglich, die wahre Prävalenz und räumliche Verteilung einer Art allein anhand von PB-Daten genau vorherzusagen (Fithian & Hastie 2013 Hastie & Fithian 2013).

Für die Analyse von PB-Daten wurden viele Modelle vorgeschlagen, aber nur drei Klassen von Modellen wurden speziell unter der Annahme formuliert, dass Arten an Orten in der Hintergrundprobe vorhanden oder fehlen könnten: Maxent-Modelle (Phillips, Anderson & Schapire 2006) , fallerweiterte binäre Regressionsmodelle (Lee, Scott & Wild 2006) und Poisson-Punktprozessmodelle (Warton & Shepherd 2010). Die Parameter der ersten beiden Klassen von Modellen sind skalenabhängig (dh hängen von der in der Analyse verwendeten räumlichen Auflösung ab), jedoch konvergieren die Parameter dieser Modelle mit zunehmender Auflösung zu denen von Poisson-Punkt-Prozessmodellen (Dorazio 2012 Fithian & Hastie 2013 Renner & Warton 2013). Daher bieten Modelle räumlicher Punktprozesse (einschließlich Poisson-Prozessen) wohl eine konzeptionelle Vereinheitlichung für die Analyse von PB-Daten (Dorazio 2014 Renner et al. 2015).

Räumliche Punktprozessmodelle müssen in der Regel modifiziert werden, bevor sie zur Vorhersage der wahren räumlichen Verteilung einer Art verwendet werden können. Diese Modifikationen umfassen Parameter zur Spezifizierung der Auswirkungen von Stichprobenauswahlfehlern oder von Fehlern bei der Erkennung einer Art (Chakraborty et al. 2011 Fithian & Hastie 2013). Die Parameter dieser Modelle sind jedoch möglicherweise nicht identifizierbar, es sei denn, die Prädiktoren für die Häufigkeit und den Nachweis von Arten sind eindeutig und linear unabhängig (Fithian & Has-tie 2013). Diese Einschränkung gilt sowohl für kontinuierliche als auch für kategoriale Kovariaten und wird in der Praxis leider nicht immer eingehalten.

Angesichts der Komplikationen bei der Arbeit mit PB-Daten besteht eine alternative Lösung darin, zuverlässige groß angelegte, geplante Erhebungen über die interessierende Region durchzuführen, die Entdeckungen und Nicht-Nachweise der Art an jedem Standort aufzeichnen. Dies liefert qualitativ hochwertige Site-Occupancy (SO)-Daten, die sowohl die

An- und Abwesenheit von Arten (Kery, Gardner & Monnerat 2010), was bei Wiederholung der geplanten Erhebungen wertvoller ist. Wir bezeichnen diese Art von Daten als SO-Daten. Leider können sie aufgrund der Kosten von SO-Erhebungen in der Regel nur einen kleinen Bereich abdecken, der oft nicht die Ausdehnung des geografischen Verbreitungsgebiets einer Art widerspiegelt. Im Allgemeinen hat der Mangel an ausreichenden SO-Daten in der Praxis ökologische Forscher gezwungen, Wege zu finden, um fast ausschließlich mit PB-Daten zu arbeiten, trotz der Verzerrungen und anderer Probleme, die dies mit sich bringen kann.

Ein wichtiger Fortschritt in den letzten Jahren war die Entwicklung von SDM-Ansätzen, die sowohl PB- als auch SO-Daten gleichzeitig berücksichtigen und möglicherweise eine bessere Vorhersageleistung bieten als SDMs, die nur auf PB- oder SO-Daten basieren. Dorazio (2014) hat diese Methode zuerst vorgeschlagen und bei der Arbeit mit PB-Daten zusammen mit Daten aus Punktzählungserhebungen angewendet. Das Modell von Dorazio (2014) war hierarchisch und in der ersten Ebene wurde die Intensität (d. h. die erwartete Dichte von Individuen) an einem beliebigen Ort angegeben. Auf der zweiten Ebene wurde die Detektion von Individuen an einem Standort spezifiziert und als abhängig von der Fähigkeit des Beobachters angenommen, die Art zu entdecken, die je nach Erhebungsbedingungen variieren kann. Eine fehlerhafte Erkennung sollte als wichtiger und wesentlicher Faktor angesehen werden, der in jedes SDM aufgenommen werden muss. Unabhängig von Dorazio (2014) haben Fithian et al. (2015) entwickelten außerdem ein Modell, um PB- und SO-Daten über mehrere Arten gleichzeitig zu kombinieren, um den Beobachter-Bias in PB-Daten besser abzuschätzen und zu korrigieren. Dieses Modell berücksichtigte einzelne Erhebungsdaten und berücksichtigte nicht die Auswirkungen einer unvollständigen Erkennung während wiederholter Erhebungen.

Integrierte SDMs wurden erst vor kurzem in die Literatur eingeführt (Hefley & Hooten 2016), sodass nur wenige Studien durchgeführt wurden, um den Nutzen und die Grenzen dieser Modelle systematisch zu bewerten. Hier beschreiben wir zunächst ein neues SDM, das PB-Daten mit SO-Daten aus wiederholten Vermessungen kombiniert, was auch eine räumlich heterogene unvollkommene Erkennung ermöglicht. Dieses SDM verwendet ein ausgedünntes Poisson-Punkt-Prozess-Modell für PB-Daten (Dorazio 2014), während es auch eine überarbeitete Version des herkömmlichen Belegungsmodells für SO-Daten wiederholter Erhebungen enthält (MacKenzie et al. 2002). Die Parameter konventioneller Belegungsmodelle haben unerwünschte skalenabhängige Definitionen und Interpretationen. Im Gegensatz dazu sind die hier vorgestellten Parameter des SDM invariant von der Wahl des räumlichen Maßstabs. Unseres Wissens ist dies die erste Implementierung eines integrierten SDM, die mit der SO-Methodik für wiederholte Umfragen verwendet werden kann.

IN HOMOGENEOUS P OISSO N PROZESS PB-MODELL Wir betrachten ein Untersuchungsgebiet B, das eine Menge von n PB-Standorten s1 umfasst. . . sn, die von Individuen einer bestimmten Art besetzt sind. Es wird davon ausgegangen, dass es sich bei diesen Stellen um eine Realisierung eines inhomogenen Poisson-Prozesses (IPP) handelt (Cressie 2015). Der Prozess ist durch eine nicht negative Intensitätsfunktion k(s) gekennzeichnet, die die limitierende erwartete Anzahl von Individuen pro Flächeneinheit am Standort s bezeichnet. Da die Intensitätsrate k(s) ortsabhängig variiert, ist der Prozess inhomogen. Die Anzahl der Individuen in der Region B ist eine Poisson-Zufallsvariable mit Mittelwert

Die Anzahl der in einer Unterregion C . enthaltenen Individuen⊂B hat auch ein Poisson-(l(C))-Verteilung. Darüber hinaus wird angenommen, dass die Anzahl der in einer Unterregion vorhandenen Individuen unabhängig von der Anzahl der Individuen in einer anderen nicht überlappenden Unterregion ist.

Die Intensität k(s) wird üblicherweise als log-lineare Funktion formuliert, abhängig von den ortsspezifischen Prädiktoren oder Kovariaten x(s) am Standort s:

logðkðsÞÞ ¼ b0xðsÞ ¼ b0þX l j¼1

bjxjðsÞ Gl. 1 wobei der Koeffizientenvektor definiert ist alsb0 ¼ ðb0 b1 . . . blÞ, in dem b0 den Intercept-Term bezeichnet und thebjis den mit dem j-ten assoziierten Koeffizienten (j= 1, . . ., l) Prädiktor. Die Kovariate x1ðsÞ, für zum Beispiel könnte die Temperatur am Standort s darstellen, während x2ðs elevation die Höhe darstellen könnte. Die Anpassung des Modells beinhaltet die Schätzung sowohl des unbekannten Achsenabschnittsb0 als auch des l-Koeffizientenbj.

In Anlehnung an Dorazio (2014) gehen wir davon aus, dass bei Vorliegen einer Einzelart an den Standorten s2 B die Wahrscheinlichkeit b (s) für deren Entdeckung ist. In unserer Formulierung beinhaltet die Funktion b(s) sowohl den Sampling-Bias als auch die unvollständige Erkennung, die beide analog sind, wenn sie beide von Umweltkovariaten abhängen (Guillera-Arroita et al. 2015). Daher werden diese beiden Verzerrungen als „Erkennbarkeit“ oder „Erkennungswahrscheinlichkeit“ bezeichnet. Bei der Modellierung der Erkennungswahrscheinlichkeit gehen wir von einer logit-linearen Funktion mit ortsspezifischen Kovariaten w(s) aus:

logitðbðsÞÞ ¼ a0wðsÞ ¼ a0þX g j¼1

Hier gilt a0 ¼ a0 a1 . . . agÞ ist der Vektor der zu schätzenden Parameter.

Die Entscheidung, welche Umweltkovariaten wj zur Modellierung der Erkennungswahrscheinlichkeit in den opportunistischen Erhebungen verwendet werden sollen, ist keine triviale Aufgabe und kann auf Expertenmeinungen beruhen. Neuere Veröffentlichungen, wie Fithian et al. (2015), Fletcheret al. (2016) und andere haben vorgeschlagen, Prädiktoren wie die Entfernung zu einer Straße oder zu Ballungszentren als Prädiktoren w (s) zu verwenden, um die Komponente der Erkennbarkeit zu modellieren, die zum verzerrten Berichterstattungsprozess beiträgt.

Angenommen, die Art wurde an m Standorten nachgewiesen s1. . . sm(m< n) in opportunistischen Umfragen kann er als ausgedünnter Poisson-Prozess mit der Intensität . modelliert werdenm(s) am Ort s modelliert als Produkt von k(s) und b(s) (Dorazio 2014). Die erwartete Anzahl erkannter Präsenzstandorte in Region B beträgt somit

Wie in Dorazio (2014) gezeigt, ist die Likelihood-Funktion für Schätzena undb im PB-Modell als verdünnter Poisson-Prozess ist

LPBðb aÞ ¼ exp Z BkðsÞbðsÞds Jam i¼1kðsiÞbðsiÞ ¼ exp Z B expðb0xðsÞ þ a0wðsÞÞ 1þ expða0wðsÞÞ ds Ym i¼1

expðb0xðsiÞ þ a0wðsiÞÞ 1þ expða0wðsiÞÞ :

Man beachte, dass diese Wahrscheinlichkeit LPB aus zwei Komponenten besteht, von denen eine ein Integral behandelt, das die Informationen von Prädiktoren über den gesamten Hintergrundbereich B erfordert, und ein Produkt, das die m erfassten PB-Positionen behandelt.

S IT E - O C C U P A N C Y M O D E L

Das konventionelle SO-Modell (MacKenzie et al. 2002 Tire et al. 2003) wird häufig verwendet, um SO-Daten zu analysieren, die in wiederholten Erhebungen desselben Standorts gesammelt wurden. Das Untersuchungsgebiet oder ein Teil des Untersuchungsgebiets ist in K nicht überlappende Standorte unterteilt, die wir mit C1 bezeichnen. . . CK, und jeder Standort wird bei T-Stichproben untersucht. Beachten Sie, dass T nicht für alle Sites gleich sein muss und dass einige Sites (möglicherweise viele) sogar T = 1 haben können (d. h. keine Replikation). Beachten Sie außerdem, dass, während das IPP-Modell auf kontinuierlichem Raum formuliert ist, das konventionelle SO-Modell auf eine Menge diskreter Orte im Raum angewendet wird.

Die SO-Vermessungen ergeben eine Matrix binärer Beobachtungen yij (i= 1, . . ., K j = 1, . . ., T), mit yij ¼ 1 wenn die Art an Standort i während der Untersuchung j entdeckt wird und yij ¼ 0 Andernfalls. Die Entdeckungswahrscheinlichkeit pijis ist definiert als die Wahrscheinlichkeit, dass die Art bei der j-ten Erhebung am Standort i entdeckt wird, vorausgesetzt, der Standort i ist von der Art mit der Wahrscheinlichkeit wi(i= 1, . . ., K) besetzt.

Es ist zu erwarten, dass die Erkennungswahrscheinlichkeit sowohl von räumlichen als auch zeitlichen Merkmalen wie Klimabedingungen, Vegetationsdichte und Geländerauheit beeinflusst wird. Diese Prädiktoren können mit einer Logit-Funktion einfach wie folgt in das Belegungsmodell eingeführt werden:

logitðpijÞ ¼ c0vij: eqn 4 Die Erkennungswahrscheinlichkeit im PB-Modell umfasst sowohl den Stichprobenauswahlfehler als auch den Beobachterfehler (dh das Fehlen der Erkennung der Spezies, wenn sie vorhanden ist), während die Erkennungswahrscheinlichkeit im SO-Modell nur den Beobachterfehler einschließt, da SO-Untersuchungsstandorte werden konstruktionsbedingt gewählt. Darüber hinaus ist die Erkennungswahrscheinlichkeit im PB-Modell einem Standort auf Punktebene zugeordnet, während die Erkennungswahrscheinlichkeit im SO-Modell einem Standort auf Standortebene entspricht.

Die von MacKenzie et al. (2002) für die Modellierung der SO-Daten lautet wie folgt:

LSOðwi cÞ ¼ Yk i¼1 wiYT j¼1 pyij ijð1 pijÞ1 y ij " # Y K i¼kþ1 wi YT j¼1ð1 pijÞ þ ð1 wiÞ " # : eqn 5

Der erste Teil der Likelihood-Funktion entspricht den k Stellen mit mindestens einer Detektion, während der zweite Teil der Likelihood für die K k Stellen formuliert wird, die überhaupt keine Detektionen haben. Beachten Sie jedoch, dass diese Formulierung des Belegungsmodells skalenabhängig ist, was die Definitionen und Interpretationen seiner Parameter beeinflusst (MacKenzie et al. 2002).

Das integrierte SDM kombiniert sowohl PB- als auch SO-geplante Vermessungsdaten, um die Genauigkeit und Präzision der Parameterschätzungen zu verbessern. Es verwendet den Continuous Space IPP-Prozess, um die SO-Daten zu modellieren, wodurch die Modellierung von PB- und SO-Daten innerhalb desselben Rahmens ermöglicht wird. Erst die Belegungswahrscheinlichkeit wi am Standort Ci ermöglicht die Verknüpfung der Ansätze im kontinuierlichen und diskretisierten Raum. Sei NðCiÞ die Anzahl der Individuen (oder die Häufigkeit) am Standort Ci, und beachte, dass NðCiÞ eine Poisson-Verteilung hat, die wie folgt von der Intensitätsfunktion abhängt: NðCiÞ PoissonðlðCiÞÞ, wobei lðCiÞ ¼ RC

Denkbar ist, dass die Wahl des räumlichen Maßstabs in den SO-Erhebungen eine Population von fester Größe an jedem Erhebungsort induziert. Somit ist das in unserem Integrierten SDM verwendete Modell der SO-Daten

genau äquivalent zu einem häufigkeitsbasierten Belegungsmodell (siehe Abschnitt 4.5.1 von Royle & Dorazio 2008).

Diese Verteilung für NðCiÞ bildet die Grundlage für die Definition der Belegungswahrscheinlichkeit für den Standort Cias wie folgt:

wi¼ PrðNðCiÞ [ 0Þ ¼ 1 exp Z Ci

wobei die Eintrittswahrscheinlichkeitwi mit der Fläche des Standorts Ci zunimmt. Die Log-Likelihood für ein Häufigkeits-basiertes Belegungsmodell von SO-Daten kann daher in Form von b und c geschrieben werden als

LSOðb cÞ ¼Y k i¼1ð1 e R CikðsÞdsÞY T j¼1 pyij ijð1 pijÞ1 y ij YK i¼kþ1 ð1 e RCikðsÞdsÞY T j¼1 ð1 pijÞ þ e RCikðsÞds ! Gl. 7, wobei k(s) eine Funktion von b ist, wie beispielsweise die log-lineare Funktion in Gleichung (1) und pij eine Funktion von c ist, beispielsweise die logit-lineare Funktion in Gleichung (4). Im Gegensatz zu MacKenzie et al. (2002) wird diese Likelihood-Funktion aus einem intensitätsbasierten Belegungsmodell abgeleitet, was dazu führt, dass die Parameter invariant von der Wahl des räumlichen Maßstabs sind (vgl. Dorazio 2014, S. 1482). Sobald die Intensitätsparameterb geschätzt wurden, Karten der individuellen Häufigkeit oder Auftretenswahrscheinlichkeit können mit jedem räumlichen Maßstab vorhergesagt werden. Diese Vielseitigkeit wird von herkömmlichen Belegungsmodellen nicht geteilt.

Da die Integrale in den beiden Gleichungen (3) und (6) nicht analytisch ausgewertet werden können, können sie durch numerische Integration approximiert werden, d. h. durch Ersetzen durch eine gewichtete Summe von Quadraturpunkten über der Integralfläche. Wir teilen das Untersuchungsgebiet in ein rechteckiges Raster ein, wobei ein Quadraturpunkt zufällig und gleichmäßig aus jeder Rasterzelle ausgewählt wird (Baddeley, Rubak & Turner 2015). Die Gittergröße wird als konstantes Quadraturgewicht in der Näherung verwendet.

In Anlehnung an Dorazio (2014) ist es möglich, die Likelihood-Funktionen (3) und (7) aus den PB- und SO-Modellen zu multiplizieren, basierend auf der Annahme, dass die PB- und SO-Datensätze unabhängig voneinander sind. Dies kann oft eine gute Näherung sein, da Erhebungsorte für SO-Daten in der Regel unabhängig von vorhandenen PB-Daten ausgewählt werden und außerdem PB- und SO-Erhebungen in der Regel über unterschiedliche Zeiträume erfasst werden. Somit kann die gemeinsame Likelihood für den integrierten SDM als L . ausgedrückt werdenIntegriertðb a cÞ ¼ LPBðb aÞ LSOðb cÞ Gl. 8 und das Maximieren dieser Wahrscheinlichkeit ermöglicht die Schätzung aller Parameter im integrierten SDM.

Leistung des integrierten SDM

In diesem Abschnitt untersuchen wir die Leistung des integrierten SDM, indem wir seine Fähigkeit untersuchen, Schlüsselparameter aus simulierten Daten zu schätzen, deren Eigenschaften bekannt sind. Das Simulationsdesign ähnelt dem in Dorazio (2014) beschriebenen. Als Untersuchungsgebiet B wird ein Quadrat angenommen, das in 10009 1000 Gitterzellen unterteilt ist. Zwei Umweltprädiktoren, x(s) und w(s), wurden unter Verwendung bivariater Verteilungen generiert, die räumlich variieren und voneinander unabhängig waren. Die bivariaten Verteilungen wurden so gewählt, dass an jedem Punkt des 2D-Gitters von B sowohl x(s) als auch w(s) definiert sind. Die Kovariaten x(s) und w(s) sind in Abb. 1 (top Reihe) über der Region B (siehe Hintergrundinformationen für Details zur Generierung von Kovariaten).

P R E S E N C E - B A C K ​​G R O U N D DA T A

Für die Generierung von PB-Daten wurde die Intensität k(s) mit der log-linearen Funktion simuliert, die von der einzelnen Kovariate x(s) abhängt:

logðkðsÞÞ ¼ b0b1xðsÞ eqn 9 Beachten Sie, dass die Schlüsselparameter, die wir aus den simulierten Daten abzuschätzen versuchen, b0 ¼ log 8000 9 und b1 ¼ 0 5, wie in Dorazio (2014). Eine Auftragung der Intensität k(s), die

erwartete Individuendichte, ist in Abb. 1 dargestellt und veranschaulicht, wie k(s) mit Änderungen von x(s) über das 2D-Untersuchungsgebiet B variiert.

Eine Logit-Funktion wird verwendet, um die Erkennungswahrscheinlichkeit b(s) zu modellieren, die von der einzelnen Kovariate w(s) abhängt, über

logitðbðsÞÞ ¼ a0þ a1wðsÞ Gl. 10

die definiert, wie die Erkennungswahrscheinlichkeit von der zweiten Kovariate w(s) abhängt. Für unsere Simulationen sind die Werte der Parameter a0 ¼ 1 und a1 ¼ 1. Abbildung 1

zeigt, wie sich die Detektionswahrscheinlichkeit aufgrund von Änderungen in w(s) räumlich über den Bereich B ändert. Beachten Sie, dass es das Produkt k(s)b(s) ist, das die tatsächliche Verteilung der Standorte der erkannten Individuen bestimmt, dh die Verteilung unserer beobachteten PB-Daten, dieses Produkt wurde in Abb. 1 aufgetragen. 1 geben den Umfang des Problems an, nämlich unter gegebenen beobachteten Daten, die nach dem Produkt k(s)b(s) verteilt sind, ist es möglich, die wahre Intensitätsfunktion k(s) und die Nachweiswahrscheinlichkeiten b . zu rekonstruieren (s) dargestellt in Abb. 1.

Für die PB-Daten werden die wahren Präsenzen mit der Intensitätsfunktion k(s) simuliert, jedoch durch die Detektionswahrscheinlichkeit b(s) ausgedünnt. Für den vorliegenden Modellaufbau wurden für den Baseline-Fall durchschnittlich 11 250 nachgewiesene Präsenzen simuliert. Zusätzlich zur Erkennungswahrscheinlichkeit b(s) wird davon ausgegangen, dass die Daten einem zusätzlichen Stichprobenbias unterliegen, der nicht durch die gegebenen Umweltkovariaten berücksichtigt werden kann. Um dies zu erreichen, wählten wir zufällig 30 % der Gesamtzahl der tatsächlich nachgewiesenen Präsenzen als beobachtete Präsenzen aus (durchschnittlich 3378 Punkte für den Ausgangsfall). Dadurch wird sichergestellt, dass wir mit echten PB-Daten anstelle von Präsenz-Abwesenheits-Daten arbeiten.

S IT E - O C C U P A N C Y D A T A

Bei der Simulation von SO-Daten wurde das Untersuchungsgebiet B in ein Raster von 2509 250 Standorten oder Zellen unterteilt. Die Werte der Kovariaten auf der zugehörigen Auflösungsstufe wurden aus den Mittelwerten der Kovariaten aus den aggregierten Bereichen berechnet. Die Standorte der SO-Erhebungsorte wurden im gesamten Untersuchungsgebiet zufällig ausgewählt. Die SO-Daten wurden an einer Reihe von SO-Erhebungsstandorten (50, 100, 200, 400 oder 800) generiert. Die tatsächlichen Vorkommensorte der Art wurden gemäß k(en) in Gl. (9) simuliert, wobei der Standort als besetzt angesehen wurde, wenn ein oder mehrere Individuen im Gebiet des Standorts vorhanden waren. Wir haben jeden Standort simuliert, der von T= 4 wiederholten Erhebungen besucht wird, wobei die Entdeckungswahrscheinlichkeit (p(s)) an jedem Standort s für alle vier wiederholten Erhebungen gleich ist und nur von der einzelnen Kovariate w(s) abhängt [Abb . 1 (obere Reihe, rechtes Feld)], wie folgt:

logitðpjðsÞÞ ¼ c0þ c1wðsÞ Gl. 11

Hier steht j für die j-te Erhebung und die Koeffizienten des Detektionsmodells wurden auf c . gesetzt0 ¼ 0 und c1 ¼ 1 5, was zu logitðpjðsÞÞ ¼ 1 5 wðsÞ führt. Hier nehmen wir die Erkennung an

Wahrscheinlichkeiten, b(s) im PB-Modell und p(s) im SO-Modell, werden von derselben Kovariate w(s) beeinflusst.

E S T I M A T IN G P A R A M E T ER S

Unser erstes Ziel bestand darin, das integrierte SDM zu bewerten, indem wir es an den simulierten PB- und SO-Datensätzen testen, die eine unvollständige Erkennung beinhalteten, und die Ergebnisse mit Modellen vergleichen, die allein auf den PB- oder SO-Daten basieren. Dies erforderte die Schätzung der Parameter b0 und b1 (Bestimmung von k(s) in Gleichung 9) und den Vergleich der

Schätzungen zu den wahren Werten, die in erster Linie zur Generierung der PB- und SO-Datensätze verwendet wurden. Das heißt, sind wir in der Lage, anhand von simulierten PB- und SO-Datensätzen, die durch vordefinierte Parameter generiert wurden, und Kenntnis der relevanten Umweltkovariaten abzuschätzen0 und B1 genau und prognostizieren dadurch die Intensitätk(s) des Modells über das gesamte Untersuchungsgebiet B. Zweitens, um wie viel verbessert sich die Genauigkeit dieser Schätzungen und Vorhersagen, wenn die Anzahl der in die Analyse einbezogenen SO-Standorte erhöht wird? Die Analysen wurden wie folgt durchgeführt und verglichen: (i) nur unter Verwendung von PB-Daten und Schätzung der Parameter mit dem Likelihood-LPB (siehe Gleichung 3) (ii) unter Verwendung nur von SO-Daten und Schätzung es

Parameter mit Likelihood LSO (siehe Gl. 7) und (iii) unter Verwendung beider

dieselben PB- und SO-Datensätze und Schätzungsparameter mit der kombinierten Likelihood LIntegrated (siehe Gl. 8). Insgesamt

In den unten beschriebenen Experimenten wurden 500 Realisierungen der simulierten Daten generiert, wobei die Modelle dann an jede Realisierung der Daten angepasst wurden. Die berichteten Mittelwerte und Konfidenzintervalle repräsentieren die Variation der Modellausgaben über alle 500 Realisierungen. Alle Modelle wurden mit der Maximum-Likelihood-Methode in R (Version 3.2.4) angepasst, und der R-Quellcode ist in den Begleitinformationen enthalten.

Die Boxplots in Abb. 2 vergleichen die Maximum-Likelihood-Schätzungen der Modellparameter unter Verwendung der drei Datenkombinationen. Aus Abb. 2a ist ersichtlich, dass das PB-Modell stark verzerrt ist und zu deutlich niedrigeren Schätzungen des Achsenabschnittstermsb . führt0im Vergleich zum wahren Wert. Dieser Bias (die Differenz zwischen dem geschätzten Mittelwert und dem wahren Parameterwert) beim Schätzen von b0ist eines der Hauptprobleme von PB-Modellen. Andererseits liefern sowohl das SO-Modell (mit 200 Standorten) als auch das integrierte SDM vernünftige und nahezu unverzerrte Schätzungen von b0. Die Boxplots zeigen, wie die Einbeziehung von SO-Stellen in die integrierte SDM-Analyse die dem PB-Modell innewohnende Verzerrung reduziert. Abbildung 2b zeigt den Steigungsparameter b1, und es ist offensichtlich, dass alle drei Modelle unverzerrte Schätzungen von b1. Allerdings hat die SO-Analyse ein deutlich größeres Konfidenzintervall als entweder das PB-Modell oder das integrierte SDM.

Abb. 1.Karte der räumlichen Verteilung der Kovariaten x(s) und w(s) (obere Reihe) und der Belegungsintensität k(s) (aus Gl. 9), Detektionswahrscheinlichkeit b(s) (aus Gl. 10) und deren Produktk(s )b(s) (untere Reihe). Letzteres stellt die erwartete Verteilung der beobachteten Individuen dar, da einige aufgrund der Auswirkungen von b(s) unentdeckt geblieben sind. Die eingerahmten Kästchen in der oberen Reihe stellen die Fläche dar, die im Szenario „Erhebungsfläche für kleine Grundstücke“ (siehe Text) vermessen wurde.

Zusammenfassend zeigen die Boxplots in Abb. 2a,b, dass kombinierte Schätzungen von beiden b0und B1sind dem integrierten SDM im Vergleich zum PB- oder SO-Modell überlegen. Es scheint, dass das integrierte SDM die Genauigkeit der Schätzungen inb . übernimmt0aus dem SO-Modell unter Beibehaltung der Genauigkeit und des kleinen Konfidenzintervalls der Schätzungen von b1aus dem PB-Modell.

Abbildung 3 zeigt, wie sich unterschiedliche Mengen an SO-Daten auf die Schätzungen von b . auswirken0und B1. Die wahren Werte der Parameter (rote Linie) werden aufgetragen und mit Schätzungen für simulierte Datensätze verglichen. Die Felder in der oberen Reihe beziehen sich auf das integrierte SDM- und das PB-Modell, während sich die in der unteren Reihe nur auf das SO-Modell beziehen. Die durchgezogene schwarze Linie in Abb. 3 repräsentiert b0, das ist der Mittelwert von 500 verschiedenen Schätzungen von b0. Nur für die PB-Daten gilt b0 ¼ 7 6, was signifikant

kleiner als der wahre Wertb0 ¼ 9 und weist somit auf einen großen Bias hin (Abb. 3a). Da mehr SO-Standorte in die Analyse einbezogen werden, b0 konvergiert zu seinem wahren Wert. Mit 50–100 eingeschlossenen SO-Standorten gibt es erhebliche Schwankungen zwischen den Schätzungen von b0wie durch die breiten 95%-Konfidenzintervalle angezeigt0(schattierter Bereich in der Abbildung). Da jedoch mehr als 400 SO-Stellen hinzugefügt werden, b0ist fast identisch mit dem wahren Wert und die Konfidenzintervalle sind relativ klein.

Abbildung 3c,d untersucht nur das SO-Modell. Es ist ersichtlich, dass für 50 SO-Stellen die Abschätzung von b0 ist dem integrierten SDM von Fig. 3a überlegen. Dies liegt daran, dass das integrierte SDM immer durch die Unfähigkeit seines PB behindert wird

Untermodell zur korrekten Schätzung des Achsenabschnitts b0. Der integrierte SDM schneidet aufgrund der korrekten Schätzung des Koeffizienten b . immer noch besser ab1. Wenn die Zahl der SO-Stellen über 100 steigt, gibt es darüber hinaus bei der Schätzung kaum einen Unterschied zwischen dem integrierten SDM und dem reinen SO-Modell0. Dies gilt sowohl hinsichtlich der Mittelwerte als auch der Konfidenzintervalle. Das gleiche gilt jedoch nicht für b1, wobei das integrierte SDM- und das PB-Modell beide weitaus bessere Schätzungen liefern als das SO-Modell, wie durch den Vergleich der CIs in den rechten Feldern von Abb. 3b mit d gezeigt wird.

Andere Szenarien erkunden

Wir haben die Leistung des integrierten SDM in mehreren zusätzlichen Szenarien untersucht.

S M A L L S O S U R V E Y A R E A

Aufgrund der Ressourcen, die für die Durchführung von SO-Erhebungen erforderlich sind, werden diese häufig in einer kleinen zusammenhängenden Unterregion des Untersuchungsgebiets durchgeführt. In unseren vorherigen Analysen wurden die SO-Studienstandorte jedoch zufällig über das gesamte Untersuchungsgebiet B ausgewählt. Hier untersuchen wir, wie sich die Erfassung der SO-Daten aus einer eingeschränkten Teilmenge des Untersuchungsgebiets B auf die Leistung des integrierten SDM auswirken könnte.

In diesem Szenario wurden die SO-Daten-Studienstandorte aus einem Gebiet ausgewählt, das 6 bis 25 % der gesamten Landschaft B umfasst.

Abb. 2. Boxplots der Maximum-Likelihood-Schätzungen der Modellparameter b0 und b1, erhalten durch Anpassen von Präsenz-Hintergrunddaten (PB) (3400 Standorte), Standortbelegung (SO) (200 Standorte) und den kombinierten Daten Dies ist eine Kombination aus SO- und PB-Daten. (a), (b) zeigen Ergebnisse, wenn die SO-Daten über die gesamte Region B gesammelt werden (c), (d) zeigen Ergebnisse, wenn die SO-Daten aus einem eingeschränkten Untersuchungsgebiet gesammelt werden und (e) und ( f) entspricht dem Szenario mit geringer Erkennungswahrscheinlichkeit. Die horizontale Linie zeigt die wahren Werte der Parameter b0 und b1, die zur Generierung der Daten verwendet werden, Punkte zeigen die mittlere Schätzung an, schattierte Bereiche zeigen die Konfidenzintervalle (zwei Standardabweichungen) und die Whiskers zeigen die extremsten Schätzungen der 500 Realisierungen der simulierten simulate Daten.

Der Bereich ist in Abb. 1 (obere Reihe) mit einem Kästchen markiert. Im Idealfall sollten räumlich repräsentative Stichproben Standorte umfassen, die den Bereich der Kovariatenwerte in Region B umfassen. Durch die Stichprobenziehung der SO-Daten in dieser eingeschränkten Region wird die Variation in den Kovariaten x(s) und w(s) im Vergleich zu . erheblich reduziert die in unseren vorherigen Analysen verwendeten SO-Daten. Daher interessiert uns, wie sich diese Einschränkung auf den Erfolg des integrierten SDM auswirkt.

Die Ergebnisse sind in den Boxplots von Fig. 2c und d für 200 SO-Stellen gezeigt. Für beides0und B1, erleidet der integrierte SDM einen relativ geringen Leistungsverlust, wenn er von der Abtastung der SO-Daten über den gesamten Bereich B zu einer Abtastung aus dem reduzierten Bereich übergeht. Dieser Prozess wurde mit einer Reihe unterschiedlicher räumlicher Positionen für die Wahl des eingeschränkten Bereichs wiederholt (obwohl immer von der gleichen Größe ausgegangen wurde), und dieses Ergebnis erwies sich als recht robust (siehe Hintergrundinformationen). Dies zeigt, wie es in der Praxis möglich sein sollte, eine kleine zusammenhängende Unterregion für SO-Daten einzuschließen und dies zu verwenden, um die Leistung von SDMs, die allein mit dem PB-Datenmodell durchgeführt wurden, signifikant zu verbessern.

L O W DE T E C T IO N P R O B A B IL IT Y

Es ist interessant, den Fall zu untersuchen, in dem die Detektionswahrscheinlichkeit über dem Bereich B relativ gering ist. Dies führt zu wenigen Beobachtungen der Art über der Landschaft und versetzt das Modell in ein Regime, in dem es schwierig ist, Parameter abzuschätzen. Wenn die Erkennungswahrscheinlichkeit gering ist, nähert sich die Logit-Funktion für b(s) einer log-linearen Funktion stark an, so dass der Ausdünnungsprozess die Intensität . hat

Als Konsequenz kann es möglich sein, die kombinierte Summe zu schätzen0þ a0, aber es ist unmöglich, das Individuum zu entwirren

Schätzungen von b0 undausschließlich PB-Daten verwenden (Dorazio 2012

Fithian & Hastie 2013 Dorazio 2014). Wir haben jedoch festgestellt, dass es möglich ist, dieses Problem durch die Arbeit mit dem integrierten SDM zu lösen, sollte eine relativ kleine Menge an SO-Daten verfügbar sein.

Betrachten Sie als Beispiel die folgende Logit-Parametrisierung für die Erkennungsparametrisierungswahrscheinlichkeit b(s):

Diese spezifische Koeffizientenwahl a0 ¼ 3 a1 ¼ 1Þ

führt zu einer geringeren mittleren Erkennungswahrscheinlichkeit bðsÞ ¼ 0 06 im Vergleich zu bðsÞ ¼ 0 308 im vorherigen Abschnitt.

Abbildung 2e,f zeigt die Ergebnisse, die bei einer Wiederholung unserer Analyse mit geringer Erkennungswahrscheinlichkeit erhalten wurden. In Abb. 2e sehen wir, dass Schätzungen forb0aus reinen PB-Daten haben jetzt ein großes Konfidenzintervall, was auf das intrinsische Problem des PB-Modells bei der Schätzung des Achsenabschnitts b0 hinweist. Aber das ist mehr geworden

übertrieben jetzt, da die Erkennbarkeit gering ist. Trotzdem, nach wie vor, b1kann aus reinen PB-Daten noch genau geschätzt werden, wie in Abb. 2f zu sehen ist. Die Anpassung der gleichen Daten mit geringer Erkennbarkeit mit dem integrierten SDM führt jedoch zu signifikanten Verbesserungen der Schätzungen von b0, und sie erreichen aufgrund der höheren Nachweisbarkeit fast die gleiche Genauigkeit wie unsere vorherigen Ergebnisse (Abb. 2a).

C O R R E L A T E D C O V A R IA T E S

Typische Umgebungs-Kovariaten wie Temperatur und Höhe können signifikant korreliert werden, unsere bisherige Analyse geht jedoch davon aus, dass die im Modell verwendeten Kovariaten unabhängig sind. Mehrere Studien haben davor gewarnt, dass korrelierte Kovariaten zu Problemen bei der Parameterschätzung führen können (Dorazio 2012 Dormann, Elith & Bacher 2013 Fithian & Hastie 2013 Dorazio 2014). Hier haben wir festgestellt, dass sowohl für das PB-Modell als auch für die

Abb. 3. Bias und Standardabweichung der Maximum-Likelihood-Schätzungen der Modellparameterb0undb1mit unterschiedlicher Anzahl von Site-Occupancy (SO)-Standorten. Die obere Reihe zeigt die Ergebnisse für das Präsenz-Hintergrund-(PB)-Modell und das integrierte Artenverteilungsmodell als Funktion der Anzahl der hinzugefügten SO-Standorte. Das reine PB-Modell entspricht dem Hinzufügen von „Null“-SO-Standorten. Die untere Reihe zeigt das SO-Modell als Funktion der gleichen Anzahl von Standorten. Die Symbole zeigen PB-Daten (Dreiecke), SO-Daten (Kreise) oder die Kombination von PB-Daten mit unterschiedlichen Mengen an SO-Daten (Quadrate) im Bereich von 50 bis 800 Orten an. Die schattierten Bereiche entsprechen dem 95%-Konfidenzintervall ( zwei Standardabweichungen) Beachten Sie das Konfidenzintervallb1für PB-Daten kleiner als die Größe des Dreieckssymbols ist. Die rote Linie zeigt die wahren Werte der Parameter an.

Integrierte SDM, Parameterschätzungen bleiben im Allgemeinen unverändert, wenn die Kovariaten x(s) und w(s) korreliert sind, außer wenn die Korrelation zwischen den Kovariaten gegen eins geht (eine Beschreibung der Methode zur Generierung korrelierter Kovariaten finden Sie in den Hintergrundinformationen). In Abb. 4 zeigen wir die Abschätzungen von b0und B1als Funktion der Korrelation r zwischen den Umweltkovariaten x(s) und w(s). Diese Schätzungen wurden unter Verwendung des PB-Modells (Dreiecke) und des integrierten SDM (Quadrate) vorgenommen (mit den Ergebnissen von 100 SO-Standorten in Abb. 4). Die Korrelation r hat wenig Einfluss auf diese Schätzungen und unterschätzt schlimmstenfalls b leicht0für das integrierte SDM. Tatsächlich verringert sich dieser Bias beträchtlich, wenn die Zahl der SO-Plätze erhöht wird (siehe Abb. S4). Beachten Sie auch die wichtige Beobachtung, dass das integrierte SDM das PB-Modell auf allen Korrelationsebenen zwischen den Kovariaten übertrifft.

Australiens Gelbbauch-Segelflugzeug: eine Anwendung des integrierten SDM

Um unsere Methodik anhand realer Daten zu demonstrieren, haben wir SDMs für den Gelbbauch-Segelflieger (Petaurus australis) im Südosten Australiens anhand von PB- und SO-Daten entwickelt. Der Gelbbauch-Gleiter ist ein baumbewohnendes, nachtaktives gleitfähiges Beuteltier, das in den einheimischen Eukalyptuswäldern Ostaustraliens lebt, mit einer Verbreitung von Victoria im Süden bis zum Norden von Queensland. Die Analyse wurde in einem Untersuchungsgebiet durchgeführt, das das südliche Verbreitungsgebiet der Art im australischen Bundesstaat Victoria umfasst (siehe Abb. S11). Das Untersuchungsgebiet wurde durch Bioregionen von Victoria abgegrenzt, die mindestens ein Vorkommen der Art im PB- oder SO-Datensatz aufweisen (siehe Abb. S11).

Die PB-Daten für unser Untersuchungsgebiet stammen aus dem viktorianischen Biodiversitätsatlas (http://www.delwp.vic.gov.au/environment-and-wildlife/biodiversity/victorian-biodiversity-atlas). Wir haben Datensätze vor dem Jahr 2000 ausgeschlossen, was zu 1136 Präsenzstandorten mit Daten aus dem Jahr 2000 bis 2012 führte, die dann verwendet wurden, um das PB-Modell (Gl. 3) zu erfüllen. Die SO-Daten wurden im Rahmen geplanter Erhebungen durch das Department of Environment, Land, Water and Planning (DELWP) gesammelt, die auf neun Arten mit hoher Priorität im Gebiet des Central Highlands Regional Forest Agreement in Victoria abzielten.

Die Erhebungen wurden im Herbst 2012 an 202 Standorten durchgeführt, wobei jede Erhebung zweimal an jedem Standort wiederholt wurde, um die Auswirkungen einer unvollständigen Erkennung abzuschätzen [für Details siehe Lumsden, Nelson & Todd (2013)]. Gelbbauch-Segelflugzeuge wurden bei der ersten Erhebung an 29 Standorten und bei der zweiten Erhebung an 22 Standorten nachgewiesen. Insgesamt betrug die Anzahl der Standorte mit mindestens einem Nachweis der Spezies 38. Diese SO-Daten wurden verwendet, um das SO-Modell (Gl. 7) anzupassen, und zusammen wurden die SO- und die PB-Daten verwendet, um das integrierte SDM ( Gleichung 8).

Es wurde angenommen, dass die Intensität (oder erwartete Dichte) k(s) von Gelbbauchsegelflugzeugen von 12 räumlich variierenden Kovariaten abhängt: Höhe, minimale Temperatur im Juli, maximale Temperatur im Januar, Entfernung zum Hauptstrom, Nässeindex, Verdunstung im Januar und Juli, Anzahl der Regentage im Januar und Juli, Niederschlag im Januar, Januar und Juli und sichtbarer Himmel. Die gemessenen Werte jeder Kovariate wurden aggregiert, um eine konsistente Auflösung von 100 m Pixel zu haben (siehe Hintergrundinformationen für Details zu den Kovariaten). Es wurde angenommen, dass die Erkennung in PB-Daten von zwei Kovariaten abhängt: Entfernung zur Straße und Geländerauheit, von denen angenommen wird, dass sie eine wichtige Rolle bei der Bestimmung des Stichprobenaufwands für opportunistische Erhebungen spielen (Fithian et al. 2015 Fletcher et al. 2016) ( siehe Hintergrundinformationen). Beachten Sie, dass wir hier davon ausgehen, dass die Erkennung im PB-Modell sowohl den räumlichen Bias im Suchaufwand als auch die Wahrscheinlichkeit umfasst, dass die Art vom Beobachter erkannt wird, wie bereits beschrieben. Es wurde angenommen, dass die Erkennung in den SO-Daten von der Windstärke und der Tageszeit der Erhebung abhängt (Lumsden, Nelson & Todd 2013).

Karten der vorhergesagten Dichte für das Gelbbauch-Segelflugzeug sind in Abb. 5 sowohl für die PB- als auch für die integrierten SDMs gezeigt. Die Karten zeigen, dass der Gelbbauchgleiter dazu neigt, in feuchten, zerklüfteten und bewaldeten Gebieten vorzukommen, wie in Lumsden, Nelson & Todd (2013) vorgeschlagen. Ein Vergleich von PB und integriertem SDM zeigt, dass das Hinzufügen von SO-Daten eine Reihe von subtilen Änderungen am PB-Modell verursacht. Der integrierte SDM zeigt höhere Intensitätsschätzungen in den südwestlichen und östlichen Regionen des Untersuchungsgebiets und niedrigere Intensitätsschätzungen in den südlichsten und nördlichsten Regionen (siehe Abb. S15 für eine Karte des Unterschieds zwischen den beiden Modellen).

Abb. 4. Bias und Standardabweichung der Maximum-Likelihood-Schätzungen der Modellparameterb0undb1bei unterschiedlichen Korrelationsbeträgen zwischen den Kovariaten. Symbole weisen darauf hin, dass Schätzungen durch Anpassung des Modells allein mit Präsenz-Hintergrund-Daten (PB) (Dreiecke) oder durch Anpassung des integrierten Artenverteilungsmodells (SDM) mit zusätzlichen Standortbesetzungsdaten (Quadrate) erhalten wurden, die an 100 Standorten mit unterschiedlichen Niveaus gesammelt wurden der Korrelation zwischen den Kovariaten x(s) und w(s). Die schattierten und gestrichelten Bereiche entsprechen dem 95 %-Konfidenzintervall (zwei Standardabweichungen) in den Schätzungen des PB bzw. des integrierten SDM.

Um die Leistung dieser SDMs zu bewerten, wurde der kombinierte PB- und SO-Datensatz in Trainings- und Testuntersätze unterteilt. Der Datensatz wurde zuerst 100 Mal gebootet, wobei jedes SDM-Modell an 80 % der SO- und/oder PB-Daten (zufällig ausgewählt) in jedem der Bootstraps angepasst wurde. Um einen Testdatensatz mit ähnlich vielen An- und Abwesenheiten zu generieren, wurde folgender Ansatz verwendet: Für jeden Bootstrap wurden die verbleibenden 20 % des SO mit zufällig ausgewählten Punkten aus dem Testdatensatz von PB-Daten ergänzt, bis eine gleiche Anzahl vorhanden war von Anwesenheiten und Abwesenheiten in den Testdaten, die sowohl SO- als auch PB-Daten umfassen. Die Anzahl der An- und Abwesenheiten im kombinierten PB- und SO-Datensatz ist sehr unausgewogen: 1136 Anwesenheiten von PB im Vergleich zu 164 Abwesenheiten von SO-Datensätzen.

Um die Leistung des Modells anhand der realen Daten zu bewerten, wurde die vorhergesagte Intensität eines Testgeländes nach Gleichung 6 in eine Belegungswahrscheinlichkeit umgerechnet. Testgelände wurden in Abhängigkeit von einem Schwellenwert als „anwesend“ oder „abwesend“ kategorisiert Wert für die Eintrittswahrscheinlichkeit (der variiert wurde). Die Modelle wurden unter Verwendung von ROC-Kurven bewertet, einem häufig verwendeten Ansatz zur Bewertung der Leistung von Modellen für binäre Daten (Fawcett 2006), die den gesamten Bereich möglicher Schwellenwerte berücksichtigen. Die Genauigkeit der Modellvorhersage wurde durch die Area Under the ROC Curve (AUC) gemessen. Die 100 Bootstraps

wurden verwendet, um den Standardfehler in den Schätzungen der AUC für PB, SO und Integrated SDM Integrated SDM zu erhalten.

Abbildung 5 zeigt ein Diagramm der durchschnittlichen AUC für PB, SO und integriertes SDM, berechnet aus 100 Bootstraps. Die Ergebnisse zeigen, dass der integrierte SDM, gemessen anhand der AUC, eine bessere Vorhersageleistung aufweist als der PB der SO-Modelle, die beide ähnlich abgeschnitten haben (SO = 0 560 PB = 0 569, Integriert = 0 617 Abb. 5).

Wir haben einen inhomogenen räumlichen Punktprozess verwendet, um ein integriertes SDM zu konstruieren, das gleichzeitig auf PB- und SO-Daten passt und für den kontinuierlichen Raum gültig ist. Unser integriertes SDM verwendet wiederholte SO-Erhebungen, um die Auswirkungen einer unvollkommenen Erkennung in diesen Erhebungen abzuschätzen und zu berücksichtigen. Unser Ansatz ist eine Erweiterung des von Dorazio (2014) vorgeschlagenen Ansatzes, der ein Modell für wiederholte Zählungen (d. h. Nachweise einzelner Tiere) an jedem Standort formulierte. Unsere Arbeit unterscheidet sich von den Ansätzen von Fithian et al. (2015) und Fletcher et al. (2016), da ihre Modelle keine wiederholten SO-Daten enthalten und nicht versuchen, die Auswirkungen einer unvollständigen Erkennung in ihren Erhebungen zu berücksichtigen.

Abb. 5. Präsenzhintergrund (PB) und integrierte Artenverteilungsmodelle (SDMs), die aus den Gelbbauch-Segelflugzeugdaten in Victoria, Australien, resultieren (Karten links). Die Karten zeigen Schätzungen der Dichte für den PB (oberes Bild) und das integrierte SDM (unteres Bild). Das Diagramm rechts zeigt die Fläche unter der ROC-Kurve (AUC) für den PB, die Standortbelegung (SO) und den integrierten SDM. Die Werte werden über 100 Bootstrap-Resamples gemittelt. Die Kreise geben den Mittelwert der AUC an, während die Fehlerbalken den Standardfehlern entsprechen.

Unsere ersten Hauptbefunde sind in Abb. 3 zusammengefasst. Dort sehen wir, dass das PB-Modell wegen seiner Unfähigkeit, den Achsenabschnitt b0 zu schätzen, die wahre Belegungswahrscheinlichkeit nicht schätzen kann (Abb. 3a). Schätzungen von b0 sind verzerrt und haben relativ hohe

Variabilität, und dies kann als der größte Nachteil des PB-Modells angesehen werden. Das PB-Modell ist jedoch in der Lage, die Steigung b1 ohne Verzerrung und mit relativ geringer Variabilität (Abb. 3b). In ähnlicher Weise liefert das SO-Modell allein Schätzungen von b0 mit geringer Verzerrung und relativ geringer Variabilität. Jedoch,

Schätzungen von b1sind aufgrund ihrer relativ hohen Variabilität aufgrund der begrenzten Stichprobengröße der SO-Standorte oft unzuverlässig (Abb. 3d). Nach sorgfältigen Vergleichen kamen wir zu dem Schluss, dass das integrierte SDM in seiner Fähigkeit, Parameter zu schätzen, fast immer dem PB-Modell oder dem SO-Modell überlegen ist. Vereinfacht gesagt erbt das Integrated SDM die entscheidenden Vorteile jedes der letztgenannten Modelle allein und minimiert deren Nachteile. Somit liefert der integrierte SDM unverzerrte Parameterschätzungen b0und B1, die beide eine geringe Variabilität aufweisen (Abb. 3a,b). Das integrierte SDM zeigte auch eine überlegene Leistung bei einer Analyse von realen Daten, die für das Gelbbauch-Segelflugzeug in Victoria, Australien, gesammelt wurden (Abb. 5).

Das integrierte SDM hat eine Reihe weiterer nützlicher Eigenschaften. Zum Beispiel haben Korrelationen zwischen Umgebungs-Kovariaten x(s) und w(s), die die Intensität k(s) bzw. die Detektion b(s) steuern, wenig Einfluss auf die Schätzung der Modellparameter. Dies steht im Gegensatz zu anderen Schlüsselstudien in der Literatur (Dorazio 2014 Fithian et al. 2015). Außerdem schnitt der integrierte SDM selbst dann gut ab, wenn sich die SO-Standorte in einem geografisch begrenzten Gebiet befanden und nur einen kleinen Teil des Bereichs der Kovariatenwerte in Region B abdeckten.

Die hier vorgestellte Analyse von Realdaten war im Wesentlichen als Proof of Concept gedacht, mit dem Ziel zu testen, ob die überlegene Leistung des Integrierten SDM anhand von Realdaten erkennbar ist. Es wurden jedoch einige zentrale Herausforderungen identifiziert, die bei der Arbeit mit realen Datensätzen berücksichtigt werden müssen.Im Fall unserer SO-Daten für den Gelbbauch-Segelflugzeug erschwerten die geringere Anzahl verfügbarer Standorte (n= 202) und die größere Anzahl offensichtlicher Artenabwesenheiten (Nicht-Erkennungen) die Bewertung der Vorhersagefähigkeit des SDM wurde sinnvoll integriert, und wir haben diese Herausforderung gelöst, indem wir wie oben beschrieben einen Bewertungsdatensatz aus PB- und SO-Daten erstellt haben. Ein weiteres Problem bei der Arbeit mit dem integrierten SDM, das bei solchen komplexen Modellen häufig vorkommt, ist die Notwendigkeit, drei verschiedene Sätze von Kovariaten für (i) die Intensität k(s) im PB-Modell, (ii) die mangelhafte Erkennung korrekt zu identifizieren , b(s), im PB-Modell, und (iii) unvollkommene Erkennung, pijðsÞ, im SO-Datensatz. Dies kann zu Herausforderungen führen

für die Modellauswahl im Hinblick auf die Bestimmung der Kovariaten, die in jeder Komponente des Modells verwendet werden sollen. Schließlich basiert das Modell auf der Poisson-Verteilung im Rahmen eines IPP-Prozesses. Dies setzt voraus, dass es keine räumliche Korrelation zwischen den Artenvorkommen gibt, eine Annahme, die aufgrund der Autokorrelation von Arten- und Umweltinteraktionen und natürlichen Aggregationen möglicherweise nicht zutrifft. Darüber hinaus zeigen PB-Daten häufig Clustering relativ zu einer Poisson-Verteilung (z. B. aufgrund fehlender Prädiktoren). Ein Ansatz zur Lösung dieser Probleme könnte die Verwendung eines Cox-Prozessmodells sein. Dies stellt jedoch einige Herausforderungen dar und würde den Rahmen unserer Studie sprengen.

Eine weitere wichtige Annahme unseres Modells ist, dass das beobachtete Punktmuster statisch ist oder dass Arten, die innerhalb eines Standorts vorkommen, während der Datenerhebung nicht verlassen (oder von einem anderen Standort eintreten). Diese Annahme ist wahrscheinlich für Arten mit begrenzten Bewegungen (Pflanzen, kleine Beuteltiere, kleine Amphibien usw.) erfüllt, könnte jedoch für hochmobile Arten (große Säugetiere, Vögel usw.) verletzt werden.

Ein neuer Aspekt unserer Arbeit ist die Einbeziehung eines abundanzbasierten Belegungsmodells zur Modellierung der Artenverteilung. Die Mehrzahl der in SDMs verwendeten Belegungsmodelle basiert auf konventionellen skalenabhängigen Modellen (Kery, Gardner & Monnerat 2010 Kery & Royle 2016). Diese konventionellen Modelle werden aufgrund der Verfügbarkeit von R-Paketen zunehmend in SDM-Anwendungen eingesetzt. Die Parameter dieser Modelle hängen jedoch von der räumlichen Auflösung der Daten ab, was die Vorhersagen des Artenvorkommens auf diese Auflösung beschränkt. Im Gegensatz dazu können abundanzbasierte Belegungsmodelle verwendet werden, um die Häufigkeit oder das Vorkommen von Individuen auf jedem räumlichen Maßstab vorherzusagen. Unser integriertes SDM basiert auf einem räumlichen Punktprozessmodell, dessen Parameter invariant zum räumlichen Maßstab sind. Somit ist die Intensitätsfunktion k(s) über dem kontinuierlichen Raum in der Region B definiert, was es ermöglicht, die Häufigkeit oder Häufigkeit des Auftretens von Individuen in jeder Unterregion von B zu schätzen, obwohl das Modell SO-Daten verwendet an diskreten Standorten. Dieser Vorteil ist von großer Bedeutung für das Herunterskalieren oder Hochskalieren von Artenverteilungen, ein Thema von aktuellem Interesse in der Verteilungsmodellierung (Keil, Wilson & Jetz 2014).

Alle Analysen wurden von V.K. Die zugrundeliegende Theorie, das Design der Simulationen und das Schreiben des Manuskripts waren das Ergebnis einer Zusammenarbeit zwischen V.K., Y.W., A.G., R.D. und L.S. Die Felddaten wurden von M.W. bereitgestellt und von V.K. analysiert. mit Input von M.W.

Die Unterstützung des Australian Research Council Grant DP150102472 wird dankbar angenommen.

Die P. B. Artendaten stammen aus dem öffentlich zugänglichen Atlas of Living Australia. Vorkommen können unter goo.gl/NwELPz heruntergeladen werden. Die in der Analyse verwendeten Standortbelegungsdaten und Kovariaten werden archiviert und können unter https://doi.org/10.5061/dryad.8467g heruntergeladen werden (Koshkina et al. 2017). R-Skripte zum Generieren simulierter Daten und zum Anpassen von Daten sind in den Hintergrundinformationen zu finden.

Baddeley, A., Rubak, E. & Turner, R. (2015) Räumliche Punktmuster: Methodik und Anwendungen mit R. CRC Press, Boca Raton, FL, USA.

Chakraborty, A., Gelfand, A.E., Wilson, A.M., Latimer, A.M. & Silander, J. A. (2011)Punktmustermodellierung für verschlechterte Präsenzdaten über große Regionen. Zeitschrift der Royal Statistical Society: Reihe C (Angewandte Statistik), 60, 757–776.

Cressie, N. (2015) Statistik für räumliche Daten. John Wiley & Söhne, New York, NY, USA.

Dorazio, R. M. (2012)Vorhersage der geografischen Verteilung einer Art aus Nur-Präsenz-Daten, die Erkennungsfehlern unterliegen. Biometrie, 68, 1303–1312. Dorazio, R. M. (2014) Berücksichtigung von unvollkommener Erkennung und Umfrage-Bias

Umfrage-Bias bei reinen Präsenzdaten. Globale Ökologie und Biogeographie, 23, 1472–1484.

Dormann, C. F., Elith, J., Bacher, S. et al. (2013)Kollinearität: eine Überprüfung der Methoden, um damit umzugehen, und eine Simulationsstudie, die ihre Leistung bewertet. Ökographie, 36, 27–46.

Elith, J. & Leathwick, J.R. (2009)Artenverteilungsmodelle: ökologische Erklärung und Prädizeerklärung über Raum und Zeit. Annual Review of Ecology, Evolution, and Systematics, 40, 677–697.

Fawcett, T. (2006)Eine Einführung in die ROC-Analyse. Mustererkennungsbriefe, 27, 861–874.

Fithian, W. & Hastie, T. (2013) Äquivalenz bei endlichen Stichproben in statistischen Modellen für Nur-Präsenz-Daten. Die Annalen der angewandten Statistik, 7, 1917–1939.

Fithian, W., Elith, J., Hastie, T. &. Keith, D.A. (2015)Bias-Korrektur in Artenverteilungsmodellen: Zusammenführung von Erhebungs- und Sammlungsdaten für mehrere Arten. Methoden in Ökologie und Evolution, 6, 424–438.

Fletcher, R. J., McCleery, R. A., Greene, D. U. & Tye, C.A. (2016)Integrierte Modelle, die lokale und regionale Daten vereinen, zeigen großräumige Umweltbeziehungen auf und verbessern Vorhersagen von Artenverteilungen. Landschaftsökologie, 31, 1369–1382.

Guillera-Arroita, G., Lahoz-Monfort, J.J., MacKenzie, D.I., Wintle, B.A. & McCarthy, M.A.. (2014) Das Ignorieren unvollkommener Erkennung in biologischen Untersuchungen ist gefährlich: eine Reaktion auf die „Anpassung und Interpretation von Belegungsmodellen“. PLoS ONE, 9, e99571.

Guillera-Arroita, G., Lahoz-Monfort, J. J., Elith, J., Gordon, A., Kujala, H., Len-tini, P. E., McCarthy, M. A., Tingley, R. & Wintle, B. A. (2015) Ist mein Artenverteilungsmodell zweckmäßig? Daten und Modelle an Anwendungen anpassen: Verteilungsmodelle an Anwendungen anpassen. Globale Ökologie und Biogeographie, 24, 276–292.

Hastie, T. & Fithian, W. (2013) Schlussfolgerung aus Nur-Präsenz-Daten die anhaltende Kontroverse. Ökographie, 36, 864–867.

Hefley, T.J. & Hooten, M. B. (2016)Hierarchische Artenverteilungsmodelle. Aktuelle Landschaftsökologieberichte, 1, 87–97.

Iknayan, K. J., Tingley, M. W., Furnas, B. J. & Beissinger, S. R. (2014)Diversität erkennen: neue Methoden zur Schätzung der Artenvielfalt. Trends in Ökologie und Evolution, 29, 97–106.

Keil, P., Wilson, A.M. & Jetz, W. (2014)Unsicherheit, Prioren, Autokorrelation und unterschiedliche Daten bei der Verkleinerung von Artenverteilungen. Vielfalt und Verteilungen, 20, 797-812.

Kery, M. & Royle, J.A. (2016)Angewandte hierarchische Modellierung in der Ökologie. Akademische Presse, London, Großbritannien.

Kery, M., Gardner, B. & Monnerat, C. (2010)Vorhersage von Artenverteilungen aus Checklistendaten unter Verwendung von Standortnutzungsmodellen. Zeitschrift für Biogeographie, 37, 1851-1862.

Koshkina, V., Wang, Y., Gordon, A., Dorazio, R., White, M. & Stone, L. (2017) Daten aus: Integrierte Artenverteilungsmodelle: Kombination von Präsenz-Hintergrund-Daten und Standort- Belegungsdaten mit unvollständiger Erkennung. Dryad Digital Repository, https://doi.org/10.5061/dryad.8467g

Lee, A. J., Scott, A. J. & Wild, C.J. (2006)Anpassung von binären Regressionsmodellen mit fallerweiterten Stichproben. Biometrie, 93, 385–397.

Lumsden, L. F., Nelson, J. L., Todd, C. R. et al. (2013) Ein neuer strategischer Ansatz für das Biodiversitätsmanagement – ​​Forschungskomponente. Arthur Rylah Institute for Environmental Research unveröffentlichter Kundenbericht für das Department of Environment and Primary Industries, Melbourne.

MacKenzie, D. I., Nichols, J. D., Lachman, G. B., Droege, S., Andrew Royle, J. & Langtimm, C. A. (2002)Schätzung der Standortbelegung, wenn die Erkennungswahrscheinlichkeit kleiner als eins ist. Ökologie, 83, 2248–2255.

Pearce, J. L. & Boyce, M. S. (2006)Modellierung von Verteilung und Häufigkeit mit Nur-Präsenz-Daten. Zeitschrift für Angewandte Ökologie, 43, 405–412.

Phillips, S. J., Anderson, R. P. & Schapire, R. E. (2006)Maximale Entropiemodellierung der geografischen Verteilung der Arten. Ökologische Modellierung, 190, 231–259.

Renner, I. W. & Warton, D. I. (2013)Äquivalenz von MAXENT- und Poisson-Punkt-Prozessmodellen für die Modellierung der Artenverteilung in der Ökologie: Äquivalenz von MAXENT- und Poisson-Punkt-Prozessmodellen. Biometrie, 69, 274–281.

Renner, I. W., Elith, J., Baddeley, A., Fithian, W., Hastie, T., Phillips, S. J., Popo-vic, G. & Warton, D.I. (2015) Punktprozessmodelle für die Nur-Anwesenheitsanalyse. Methoden in Ökologie und Evolution, 6, 366–379.

Royle, J. A. &Dorazio, R.M. (2008)Hierarchische Modellierung und Inferenz in der Ökologie: Die Analyse von Daten aus Populationen, Metapopulationen und Gemeinschaften. Akademische Presse, London, Großbritannien.

Tyre, A. J., Tenhumberg, B., Field, S. A., Niejalke, D., Parris, K. & Possing-ham, H.P. (2003)Präzision verbessern und Bias in biologischen Umfragen reduzieren: Schätzung falsch-negativer Fehlerquoten. Ökologische Anwendungen, 13, 1790-1801.

Warton, D. I. & Shepherd, L.C. (2010)Poisson-Punkt-Prozessmodelle lösen das „Pseudo-Absenz-Problem“ für Präsenzdaten in der Ökologie. Die Annalen der angewandten Statistik, 4, 1383–1402.

Eingegangen am 14. November 2016, akzeptiert am 5. Dezember 2016 Redaktion: David Warton

Einzelheiten zu den elektronischen Hintergrundinformationen sind unten aufgeführt. Anhang S1. Details zur Simulation der Kovariaten, zusätzliche Simulationsergebnisse, detaillierte Erläuterungen zur Analyse der Analyse für die Felddaten des Gelbbauchseglers.

Daten S1. Generierte Daten (die Kovariaten x und w sowie die PB- und SO-Datensätze), die zur Anpassung an die Modelle verwendet werden.

Daten S2. R-Skript zum Anpassen von PB-, SO- und integrierten Modellen an die Daten. Daten S3. R-Skript zum Generieren der simulierten Daten (die Kovariaten x und w sowie die PB- und SO-Datensätze).


SDMs als Analogon zu Quantenteilchen-Wellenfunktionen

In der Quantenmechanik wird jedes Objekt (z. B. ein Teilchen) durch seine „Wellenfunktion“ charakterisiert. Solange das Objekt nicht direkt beobachtet (d. h. gemessen) wird, kann man nicht sagen, dass es einen bestimmten Ort im Raum oder in der Zeit hat, sondern es kann davon ausgegangen werden, dass es an mehreren Orten gleichzeitig existiert, wie durch die Wellenfunktion beschrieben. Kohärente Quantenobjekte interagieren aufgrund ihrer Wellenfunktionen und nicht direkt aufgrund ihrer Auftrittswahrscheinlichkeiten. Es ist die quadrierte Amplitude der Positionswellenfunktion an einem bestimmten Ort, die die Wahrscheinlichkeit angibt, dass das beobachtete Objekt an diesem Punkt im Raum auftritt. Sobald das Objekt tatsächlich physikalisch beobachtet wird, „kollabiert“ die Wellenfunktion in einem noch nicht vollständig verstandenen Prozess und das Objekt kann dann vorübergehend nur an diesem bekannten einzigen Ort gefunden werden (in der Quantentheorie ist das Objekt „dekohärent“ geworden Zurek 1991). Im Laufe der Zeit wird das Objekt, wenn es nicht erneut gemessen wird, kohärent und seine genaue Position ist wieder ungewiss.

Obwohl sowohl Wahrscheinlichkeit als auch Günstigkeit von 0 bis 1 reichen, unterscheiden sie sich in einem grundlegenden Aspekt. Die Wahrscheinlichkeit des Vorkommens einer Art an einem Standort wird sowohl von der Gesamtprävalenz der Art als auch davon beeinflusst, inwieweit die Bedingungen dieses bestimmten Standorts das Vorkommen der Art mehr oder weniger wahrscheinlich machen. Günstigkeit ist genau dieser zweite Teil. Wenn ein bestimmter Standort günstig ist, dann |$P$| an diesem Standort höher ist, als allein der allgemeinen Verbreitung der Art zugeschrieben werden kann. Umgekehrt kann eine hohe Eintrittswahrscheinlichkeit unter Bedingungen geringer Günstigkeit auftreten, wenn die Gesamtprävalenz hoch ist. |$P$| und |$F$| stellen unterschiedliche philosophische Konzepte, logische Systeme (jeweils klare und unscharfe Logik) und mathematische Domänen dar – und führen zu unterschiedlichen, wenn auch oft komplementären Ergebnissen. Die Günstigkeitsfunktion beschreibt die lokale Günstigkeit für das Vorkommen von Arten in allen Lokalitäten auf eine Weise, die unabhängig von der Prävalenz der Art ist, und ist der grundlegende Treiber der Artenverteilung, aus der die beobachteten Verteilungsdaten abgeleitet werden. Wir betrachten sie daher als analog zu einer Teilchenwellenfunktion.

Um eine zweite Analogie zwischen Günstigkeits- und Wellenfunktionen zu ziehen, zeigten Acevedo und Real (2012), dass es die Interaktion zwischen Günstigkeiten und nicht zwischen Auftretenswahrscheinlichkeiten ist, die die Kombination von SDMs ermöglicht, wenn mehrere Arten beteiligt sind. Ebenso basiert die Wechselwirkung zwischen Quantenobjekten auf ihren Wellenfunktionen und nicht auf den jeweiligen Wahrscheinlichkeiten des beobachteten Auftretens.

Diese Ansicht spiegelt auch Artenverteilungen besser wider als ein statisches Verständnis von Beobachtungen. Keine Karte der beobachteten Verbreitung kann den Anspruch erheben, die Verbreitung einer Art vollständig darzustellen, sondern nur eine Reihe von Beobachtungen, die sich aus der wahren Verbreitung der Art ergeben ( Barbosa et al. 2013b). Erstens ist eine Artenverteilung eher dynamisch als statisch: Selbst bei sesshaften Organismen wie Pflanzen oder Korallen ändert sich die geografische Verteilung mit der Zeit über mehrere räumliche Skalen. Unterschiede zwischen mobilen und sesshaften Organismen sind in dieser Hinsicht eher quantitativ als qualitativ. Ein Verbreitungsgebiet einer Art ist Ausdruck seines kontinuierlichen (und sich ändernden) Spektrums an Reaktionen auf unterschiedliche Umweltbedingungen (Hengeveld 1992). Zweitens und folglich zu einem bestimmten Zeitpunkt, deckt eine Art eine Reihe von Orten gleichzeitig mit unterschiedlicher Intensität ab, während der genaue Ort, an dem wir jedes Individuum finden, von dem genauen Moment abhängt, in dem wir es beobachten. Auch wenn die Verbreitungsaufzeichnungen der Arten über einen Zeitraum von mehreren Jahren gesammelt werden, wie es häufig der Fall ist (z. B. Palomo und Gisbert 2002), ist die aufgezeichnete Verbreitung lediglich eine Momentaufnahme der Standorte der Organismen zum Zeitpunkt ihrer Beobachtung ( zB die schwarzen Punkte in Abb. 1). Wenn Beobachtungen zu unterschiedlichen Zeitpunkten gemacht würden, würden unterschiedliche Orte erhalten. Es könnte daher argumentiert werden, dass eine Art konzeptionell mit unterschiedlicher Intensität über das gesamte Gebiet, das vom Lebensraum ihrer konstituierenden Individuen umfasst graue Bereiche in Abb. 1).

Verbreitungsaufzeichnungen (schwarze Punkte) des europäischen Kaninchens (Oryctolagus cuniculus) auf UTM |$10 < m km> imes 10 < m km>$| Quadrate des spanischen Festlandes ( Palomo und Gisbert 2002) und Umweltfreundlichkeit (ansteigend von weiß nach schwarz) basierend auf einem Verteilungsmodell ( Real et al. 2009). Vorkommensaufzeichnungen entsprechen einer klassischen Ansicht der Artenverteilung, während die Günstigkeit einer quantenmechanischen (Wellenfunktion) Ansicht der Artenverteilung entspricht.

Verbreitungsaufzeichnungen (schwarze Punkte) des europäischen Kaninchens (Oryctolagus cuniculus) auf UTM |$10 < m km> imes 10 < m km>$| Quadrate des spanischen Festlandes ( Palomo und Gisbert 2002) und Umweltfreundlichkeit (ansteigend von weiß nach schwarz) basierend auf einem Verteilungsmodell ( Real et al. 2009). Vorkommensaufzeichnungen entsprechen einer klassischen Ansicht der Artenverteilung, während die Günstigkeit einer quantenmechanischen (Wellenfunktion) Ansicht der Artenverteilung entspricht.

In der Quantentheorie impliziert eine experimentelle Beobachtung die Wechselwirkung zwischen einem Messmittel (z. B. einem Photon, das von einem Elementarteilchen abprallt) und dem beobachteten Teilchen, wodurch die Flugbahn des Teilchens selbst verändert wird. Folglich beeinflusst jede Beobachtung die beobachteten Eigenschaften. Analog können wir die Beobachtung von Artenverteilungen im Feld als eine „Änderung“ in der wahrgenommenen gegenwärtigen Verbreitung dieser Art konzeptualisieren. Wenn wir beobachten, werden wir von Tieren entdeckt, die dadurch ihren Kurs ändern oder sich woanders bewegen, wir bewegen Fortpflanzungsorgane, wenn wir Organismen zur Identifizierung berühren, oder wir modifizieren die Umgebung, um die Orte physisch erreichbar zu machen, und verändern so die Verbreitung, die wir sind, grundlegend beobachtend. Hinweis: Wir behaupten hier nicht, dass die Beobachtung eines einzelnen Organismus seinen Zustand physikalisch ändert, wie es bei Schrödingers Katze der Fall ist, sondern stellen eine Analogie her.

Diese Analogie zur Quantentheorie erlaubt uns, noch weiter zu gehen: Man könnte sagen, dass es einen gewissen, wenn auch oft vernachlässigbaren Grad an Günstigkeit jenseits des Heimatbereichs für gibt irgendein Spezies. Dies würde bedeuten, dass die Wahrscheinlichkeit, eine Art außerhalb ihres Verbreitungsgebietes zu beobachten, im Prinzip gering, aber nicht null ist. Tatsächlich könnte man argumentieren, dass die Wahrscheinlichkeit, dass ein Individuum (in jedem Lebensstadium) einer Art irgendwo in der globalen Biosphäre gefunden wird, nie genau null ist. Auch hier würden wir behaupten, dass dies die Realität widerspiegelt – sicherlich in Bezug auf biologische Phänomene wie Ausbreitung und Landstreicherei (z. B. Gilroy und Lees 2003).

So kann die Verbreitung einer Art besser durch ein Günstigkeitsmodell wie das in Abb. 1 dargestellte Graustufenmodell beschrieben werden, anstatt durch beobachtete Vorkommensaufzeichnungen, das angibt, wie wahrscheinlich die Art an jedem Ort gefunden wird ( je nachdem, wie günstig die Bedingungen dafür sind) jedes Mal, wenn wir beobachten. Die Günstigkeit ist analog zur „Wellenfunktion“ für jede Art, die das dynamische Verhalten der Verbreitung beschreibt. Wie in der Quantenmechanik liefert Günstigkeit potenziell „vollständige Informationen“ über eine Spezies (vollständige Informationen über den Standort eines Teilchens, was nicht nur bedeutet, wo es sich befindet, sondern auch die Wellenfunktion, die beschreibt, wo es sein könnte und wie wahrscheinlich es ist). Ebenso sind die vollständigen Informationen über eine Artenverteilung nicht die Orte, an denen sie beobachtet wurde, sondern die Orte, an denen sie ein größeres oder geringeres Beobachtungspotenzial hat. Die Günstigkeit für das Artenvorkommen an unterschiedlichen Standorten liegt damit näher an der wahren Artenverteilung, da sie die „vollständige Information“ über das Artenpotenzial darstellt, sofern es dem Modell gelungen ist, die relevanten Korrelate der Artenverteilung zu erfassen.

Die Vorteilhaftigkeit kann entweder aus einem statistischen oder einem mechanistischen Modell abgeleitet werden, je nachdem, wie die Wahrscheinlichkeitswerte erhalten werden. Wenn wir jedoch berücksichtigen, dass in der Quantenmechanik Wahrscheinlichkeiten nur als statistische Verteilung beschrieben werden können und nur wenn das Experiment oder die Beobachtung viele Male wiederholt wird, verschwimmt der Unterschied zwischen mechanistischen und statistischen SDMs, und statistische Modelle können sich an (quanten-)mechanistische Modelle bei ausreichender Anzahl von Beobachtungen.

Allerdings sind auch einige Unterschiede zwischen Speziesverteilungen und Quantenwellenfunktionen offensichtlich, da die Spezies aus vielen Individuen besteht, während das Teilchen eins ist und die makroskopischen bzw. mikroskopischen Domänen der beteiligten Phänomene sie unterschiedlich machen. Darüber hinaus hängt die Günstigkeit des Auftretens im Gegensatz zu Wellenfunktionen von den spezifischen Umweltbedingungen und der Geschichte der Art ab. Aus diesem Grund sollte die Günstigkeitsfunktion nicht wie üblich auf quantensubatomare Teilchen angewendet werden, sondern auf die Wahrscheinlichkeit des Auftretens von Arten bezogen werden, eher im Einklang mit den verwendeten Konzepten der Artenverteilungsmodellierung oder allgemeiner in der Biogeographie.

Ein Hinweis: Quantenphänomene in Lebewesen

Beachten Sie, dass die vorherigen Argumente nicht erfordern, dass lebende Organismen selbst als Quantenobjekte behandelt werden. Es wurde kein Organismus beobachtet, der ein Quantenverhalten als ganzes Objekt zeigt ( Romero-Isart et al. 2010 Bull und Gordon 2015 Li und Yin 2015 jedoch siehe Rodríguez et al., 2015b). Quantenphänomene sind jedoch in verschiedenen biologischen und ökologischen Prozessen wichtig ( Ball 2011), darunter Photosynthese ( Engel et al. 2007 Mohseni et al. 2008 Sarovar et al. 2010), Magnetorezeption ( Ahmad et al. 2007 Gegear et al. 2008 Keary et al. 2009 Gauger et al. 2011), Tierverhalten ( Aerts et al. 2014 Holland 2014), natürliche Selektion ( Lloyd 2009), Ökologie und Evolution ( Rodríguez et al. 2015a, 2015b und Referenzen darin). Es ist daher nicht ganz verwunderlich, dass in einem zur Quantenphysik analogen Rahmen auch großräumigere Zusammenhänge zwischen Artenverteilungen und der Umwelt verstanden werden können. Auf jeden Fall argumentieren wir hier für die Verwendung der Quantenanalogie als heuristisches Konzept mit den daraus folgenden heuristischen Werkzeugen (Sinn Bulle 2015). Wir stellen nicht die homologen mathematischen Werkzeuge zur Verfügung, um quantenmechanisch mit Speziesverteilungen umzugehen, sondern schlagen vielmehr vor, dass ein solcher Rahmen die Art und Weise, wie SDMs gebaut und bewertet werden, in zukünftigen Arbeiten anwenden und verbessern könnte.


Ergebnisse

Früher generierte Ensemblemodelle (Kessler et al. 2019) sagten voraus, dass die drei Arten in Abhängigkeit von der Anzahl der SDMs, die zur Identifizierung einer „geeigneten“ Region verwendet wurden, erheblich reduzierte Ausdehnungen des Festlandes besetzten ( Tabelle 1 Abb. 1). Im Allgemeinen befanden sich die größten zusammenhängenden Regionen mit dem größten Konsens im nördlichen zentralen Teil des Staates. Weniger Modelle sagten Artenvorkommen nach Süden oder in den Pfannenstiel (Nordwesten) voraus. Insbesondere sagten einige der SDMs für alle Arten Regionen mit geeigneten Umgebungen voraus, die sich vom Okeechobee-See bis zum südlichen Rand des Festlandes erstrecken.

Der Anteil des Festlands von Florida, der von keinem der SDMs, einem oder zwei Modellen, drei oder vier Modellen oder allen fünf SDMs als geeignet für drei Zeckenarten identifiziert wurde

Konkordanz. Amblyomma americanum . . Ixodes scapularis . . Dermacentor variabilis . .
. % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) .
Keiner 46.6 (68,388) 8.1 (75) 39.5 (57,968) 0.0 (51) 26.0 (38,156) 0.0 (35)
1–2 30.8 (45,200) 19.7 (81) 33.0 (48,428) 8.2 (110) 50.9 (74,698) 1.5 (135)
3–4 13.0 (19,078) 41.7 (36) 18.0 (26,416) 10.2 (39) 21.2 (31,112) 7.4 (54)
5 9.6 (14,088) 50.0 (58) 9.4 (13,795) 56.0 (50) 1.9 (2,788) 19.2 (26)
Konkordanz. Amblyomma americanum . . Ixodes scapularis . . Dermacentor variabilis . .
. % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) .
Keiner 46.6 (68,388) 8.1 (75) 39.5 (57,968) 0.0 (51) 26.0 (38,156) 0.0 (35)
1–2 30.8 (45,200) 19.7 (81) 33.0 (48,428) 8.2 (110) 50.9 (74,698) 1.5 (135)
3–4 13.0 (19,078) 41.7 (36) 18.0 (26,416) 10.2 (39) 21.2 (31,112) 7.4 (54)
5 9.6 (14,088) 50.0 (58) 9.4 (13,795) 56.0 (50) 1.9 (2,788) 19.2 (26)

Zum Beispiel wurden 9,4 % des Staates für geeignet erachtet I. scapularis von allen fünf Modellen und dies umfasst 13.795 km 2 . 56 Prozent der 50 Transekte in dieser Region ergaben I. scapularis. Große, aber unterschiedliche Teile des Staates wurden für jede Art als ungeeignet vorhergesagt (Konkordanz = keine). Die gesamte Landfläche des Festlands Florida wurde auf 146.754,6 km 2 geschätzt (Kessler et al. 2019). SDM, Artenverteilungsmodell trans., transek.

Der Anteil des Festlands von Florida, der von keinem der SDMs, einem oder zwei Modellen, drei oder vier Modellen oder allen fünf SDMs als geeignet für drei Zeckenarten identifiziert wurde

Konkordanz. Amblyomma americanum . . Ixodes scapularis . . Dermacentor variabilis . .
. % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) .
Keiner 46.6 (68,388) 8.1 (75) 39.5 (57,968) 0.0 (51) 26.0 (38,156) 0.0 (35)
1–2 30.8 (45,200) 19.7 (81) 33.0 (48,428) 8.2 (110) 50.9 (74,698) 1.5 (135)
3–4 13.0 (19,078) 41.7 (36) 18.0 (26,416) 10.2 (39) 21.2 (31,112) 7.4 (54)
5 9.6 (14,088) 50.0 (58) 9.4 (13,795) 56.0 (50) 1.9 (2,788) 19.2 (26)
Konkordanz. Amblyomma americanum . . Ixodes scapularis . . Dermacentor variabilis . .
. % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) . % Fläche (km 2 ) . % trans. (Anzahl der Übers.) .
Keiner 46.6 (68,388) 8.1 (75) 39.5 (57,968) 0.0 (51) 26.0 (38,156) 0.0 (35)
1–2 30.8 (45,200) 19.7 (81) 33.0 (48,428) 8.2 (110) 50.9 (74,698) 1.5 (135)
3–4 13.0 (19,078) 41.7 (36) 18.0 (26,416) 10.2 (39) 21.2 (31,112) 7.4 (54)
5 9.6 (14,088) 50.0 (58) 9.4 (13,795) 56.0 (50) 1.9 (2,788) 19.2 (26)

Zum Beispiel wurden 9,4 % des Staates für geeignet erachtet I. scapularis von allen fünf Modellen und dies umfasst 13.795 km 2 . 56 Prozent der 50 Transekte in dieser Region ergaben I. scapularis. Große, aber unterschiedliche Teile des Staates wurden für jede Art als ungeeignet vorhergesagt (Konkordanz = keine). Die gesamte Landfläche des Festlands Florida wurde auf 146.754,6 km 2 geschätzt (Kessler et al. 2019). SDM, Artenverteilungsmodell trans., transek.

(A) Ensemblemodellvorhersage für Amblyomma americanum und Probenahmestellen für 41 Standorte in der ursprünglichen Studie (offene Kästchen und ausgefüllte Dreiecke), die zur Generierung von Ensemble-Artenverteilungsmodellen (SDMs) verwendet wurden (Kessler et al. 2019). Das Farbschema für die Mustervereinbarung stammt von Kessler et al. (2019), mit grau = keine Modelle prognostizierten das Auftreten durch grün (ein oder zwei Modelle), gelb (drei Modelle stimmen zu), orange (vier Modelle stimmen zu) oder rot (alle Modelle sagen das Auftreten voraus). Gefüllte Dreiecke wurden während der ursprünglichen Erhebung und während der Validierung vermessen. Ausgefüllte Kästchen weisen auf neue Prüfstandorte für die Validierung hin. Einschübe in (A) zeigen ein Beispiel für ein Transekt an der Stelle mit einem Auslassungsfehler (das Transekt wurde als „tick-positiv“ befunden für A. americanum, aber kein Ensemblemodell prognostizierte das Auftreten [Zustimmung = 0]) und ein Beispiel für einen Provisionsfehler (offener Kreistransekt, bei dem questing A. americanum wurden nicht gefunden, aber das Ensemblemodell prognostizierte das Auftreten „Übereinstimmung > 0“). (B) Ensemblemodellvorhersage für Ixodes scapularis mit gleichen Original- und Validierungsstandorten. Farbschema ist wie in (A). Einschub zeigt nur ein Beispiel für eine Site mit einem „Kommissionsfehler“-Transekt, für die keine Auslassungsfehler gefunden wurden I. scapularis. (C) Ensemblemodellvorhersage für Dermacentor variabilis. Farbschema ist wie in (A). Einschub zeigt nur ein Beispiel für eine Site mit einem Provisionsfehler-Transekt, für die keine Auslassungsfehler gefunden wurden D. Variabilis.

(A) Ensemblemodellvorhersage für Amblyomma americanum und Probenahmestellen für 41 Standorte in der ursprünglichen Studie (offene Kästchen und ausgefüllte Dreiecke), die zur Generierung von Ensemble-Artenverteilungsmodellen (SDMs) verwendet wurden (Kessler et al. 2019). Das Farbschema für die Mustervereinbarung stammt von Kessler et al. (2019), mit grau = keine Modelle prognostizierten das Auftreten durch grün (ein oder zwei Modelle), gelb (drei Modelle stimmen zu), orange (vier Modelle stimmen zu) oder rot (alle Modelle sagen das Auftreten voraus). Gefüllte Dreiecke wurden während der ursprünglichen Erhebung und während der Validierung vermessen. Ausgefüllte Kästchen weisen auf neue Prüfstellen für Validierungsuntersuchungen hin. Einschübe in (A) zeigen ein Beispiel für ein Transekt an der Stelle mit einem Auslassungsfehler (das Transekt wurde als „tick-positiv“ befunden für A. americanum, aber kein Ensemblemodell prognostizierte das Auftreten [Zustimmung = 0]) und ein Beispiel für einen Provisionsfehler (offener Kreistransekt, bei dem questing A. americanum wurden nicht gefunden, aber das Ensemblemodell prognostizierte das Auftreten „Übereinstimmung > 0“). (B) Ensemblemodellvorhersage für Ixodes scapularis mit gleichen Original- und Validierungsstandorten. Farbschema ist wie in (A). Einschub zeigt nur ein Beispiel für eine Site mit einem „Kommissionsfehler“-Transekt, für die keine Auslassungsfehler gefunden wurden I. scapularis. (C) Ensemblemodellvorhersage für Dermacentor variabilis. Farbschema ist wie in (A). Einschub zeigt nur ein Beispiel für eine Site mit einem Provisionsfehler-Transekt, für die keine Auslassungsfehler gefunden wurden D. Variabilis.

Die Standorte der Validierungsuntersuchungen waren weit über das gesamte Festland verteilt, einschließlich Regionen, in denen Ensemble-Modelle vorhergesagte Arten fehlen würden ( Abb. 1). Im Jahr 2019 umfassten die 43 Validierungsstandorte 250 Transekte, die 1450 Mal in einem ungefähr zweimonatlichen Zeitplan untersucht wurden, obwohl dies je nach lokalen Bedingungen variierte. Die Anzahl der Transekte reichte von 2 bis 17 an jedem Standort (Median = 4 Transekte) basierend auf der Größe des Standorts und den vorhandenen Landbedeckungsklassen ( Glass et al. 2019). Achtzehn Standorte und ihre 105 Transekte wurden während der Entwicklung des Ensemblemodells (2015–2018) beprobt und zur Validierung erneut beprobt. Im Jahr 2019 wurden zum ersten Mal 25 Standorte mit 145 Transekten untersucht ( Abb. 1 Ergänzungstabelle 1 [nur online]).

Die durchschnittliche Länge der Transekte betrug 156 m ± 2,5 m (x ± SE), die sich nicht signifikant von den Transektlängen von 2015 bis 2018 unterschied. Die Validierungstransekte, in denen Zecken gesammelt wurden, unterschieden sich in der Länge nicht signifikant von den Validierungstransekten, in denen keine Zecken gesammelt wurden (Odds Ratio = 0,99 95 % Konfidenzintervall = 0,98–1,01).

Transekte, in denen Zecken in Validierungserhebungen gesammelt wurden, stimmten mit denen von 2015 bis 2018 überein (Supp-Tabelle 1 [nur online]). Von den 18 neu beprobten Standorten stimmten 64,8% (35/54, wobei der Nenner 18 Standorte × 3 Arten ist) zwischen der Modellentwicklung (2015–2018) und der Validierung (Zeckenarten entweder vorhanden oder nicht vorhanden) zu. Von den nicht übereinstimmenden Standorten ergaben 29,6% (16/54) Zeckenarten während der Modellentwicklung, aber nicht während der Validierung. An diesen Standorten wurde eine Art in den Jahren 2015–2018 selten beobachtet (nur ein oder zwei Transekte wurden als „vorhanden“ eingestuft. Supp-Tabelle 1 [nur online]). Beispielsweise, A. americanum wurde einmal in einem einzigen Transekt bei Colt Creek in den Jahren 2015–2018 (1/13 Transekte während 158 Erhebungen) und in keinem Transekt im Jahr 2019 gefunden (Supp Table 1 [nur online]). Dermacentor variabilis, die während der Studien sporadisch erfasst wurden, führten zu den meisten widersprüchlichen Umfrageergebnissen (7/18 Standorte). Selten wurde eine Art während der Validierung zum ersten Mal an einem Standort beobachtet, wenn sie während der Modellentwicklung nicht entdeckt wurde. Es gab drei Standorte (eine für jede Art), an denen eine Art erstmals im Jahr 2019 gesammelt wurde und sie wurden nur an einzelnen Transekten gefunden. Diese drei Transekte fielen in die vorhergesagten Vorkommensregionen der Ensemble-Modelle.

Insgesamt ist der Anteil der Transekte, die ausgewachsene D. Variabilis, I. scapularis, oder A. americanum reichte von 4,0 bis 26,4 % (Tabelle 2). Einsame Sternzecken wurden am häufigsten untersucht (60/250 Transekte), während Schwarzbeinige Zecken etwas seltener (41/250 Transekte) und Hundezecken am seltensten dokumentiert wurden (10/250 Transekte Tabelle 2). Trotz der großen Unterschiede in den Transekten, die verschiedene Arten hervorbrachten, waren alle Arten geografisch weit verbreitet (Supp-Tabelle 1 [nur online]).

Vergleich von Validierungserhebungen (Spalten Transekte positiv/negativ) mit SDM-Vorhersagen am Transekt (Zeilenmodell zeigt vorhanden/abwesend an) und zusammenfassende Bewertungsmaße (±95 % KI)

Modell . Amblyomma americanum . . . Ixodes scapularis . . . Dermacentor variabilis . . .
. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt.
Vorhanden 60 116 176 41 158 199 10 204 214
Abwesend 6 68 74 0 51 51 0 36 36
Gesamt 66 184 250 41 209 250 10 240 250
Messen
Empfindlichkeit 90.9 (81.3, 96.6) 100.0 (91.4, 100.0) 100.0 (69.2, 100.0)
Besonderheit 37.0 (30.0, 44.4) 24.4 (18.7, 30.8) 15.0 (10.7, 20.2)
PPV 34.1 (31.1, 37.2) 20.6 (19.4, 21.9) 4.7 (4.4, 4.9)
Barwert 91.9 (83.8, 96.1) 100.0 100.0
Modell . Amblyomma americanum . . . Ixodes scapularis . . . Dermacentor variabilis . . .
. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt.
Vorhanden 60 116 176 41 158 199 10 204 214
Abwesend 6 68 74 0 51 51 0 36 36
Gesamt 66 184 250 41 209 250 10 240 250
Messen
Empfindlichkeit 90.9 (81.3, 96.6) 100.0 (91.4, 100.0) 100.0 (69.2, 100.0)
Besonderheit 37.0 (30.0, 44.4) 24.4 (18.7, 30.8) 15.0 (10.7, 20.2)
PPV 34.1 (31.1, 37.2) 20.6 (19.4, 21.9) 4.7 (4.4, 4.9)
Barwert 91.9 (83.8, 96.1) 100.0 100.0

CI, Konfidenzintervall PPV, positiver Vorhersagewert NPV, negativer Vorhersagewert SDM, Artenverteilungsmodell.

Vergleich von Validierungserhebungen (Spalten Transekte positiv/negativ) mit SDM-Vorhersagen am Transekt (Zeilenmodell zeigt vorhanden/abwesend an) und zusammenfassende Bewertungsmaße (±95 % KI)

Modell . Amblyomma americanum . . . Ixodes scapularis . . . Dermacentor variabilis . . .
. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt.
Vorhanden 60 116 176 41 158 199 10 204 214
Abwesend 6 68 74 0 51 51 0 36 36
Gesamt 66 184 250 41 209 250 10 240 250
Messen
Empfindlichkeit 90.9 (81.3, 96.6) 100.0 (91.4, 100.0) 100.0 (69.2, 100.0)
Besonderheit 37.0 (30.0, 44.4) 24.4 (18.7, 30.8) 15.0 (10.7, 20.2)
PPV 34.1 (31.1, 37.2) 20.6 (19.4, 21.9) 4.7 (4.4, 4.9)
Barwert 91.9 (83.8, 96.1) 100.0 100.0
Modell . Amblyomma americanum . . . Ixodes scapularis . . . Dermacentor variabilis . . .
. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt. Positiv. Negativ. Gesamt.
Vorhanden 60 116 176 41 158 199 10 204 214
Abwesend 6 68 74 0 51 51 0 36 36
Gesamt 66 184 250 41 209 250 10 240 250
Messen
Empfindlichkeit 90.9 (81.3, 96.6) 100.0 (91.4, 100.0) 100.0 (69.2, 100.0)
Besonderheit 37.0 (30.0, 44.4) 24.4 (18.7, 30.8) 15.0 (10.7, 20.2)
PPV 34.1 (31.1, 37.2) 20.6 (19.4, 21.9) 4.7 (4.4, 4.9)
Barwert 91.9 (83.8, 96.1) 100.0 100.0

CI, Konfidenzintervall PPV, positiver Vorhersagewert NPV, negativer Vorhersagewert SDM, Artenverteilungsmodell.

Wenn Ensemble-Modelle (Kessler et al. 2019) dichotomisiert wurden (kein SDM-vorhergesagtes Vorkommen vs. mindestens ein SDM-vorhergesagtes Vorkommen in einem Transekt), war der NPV (Ensemble-Modelle, die ausschließen, dass Transekte adulte Zecken ergeben) durchweg hoch (Tabelle 2) . NPV betrug 100,0% für I. scapularis und D. variabilis. Der Kapitalwert für A. americanum war ebenfalls hoch (91,9%), aber erwachsene Einzelsternzecken wurden in sechs Transekten gefunden, in denen ihr Auftreten nicht vorhergesagt wurde. Ebenso war die Sensitivität hoch, so dass Zecken fast ausschließlich auf Transekten gefunden wurden, die von den SDMs vorhergesagt wurden ( Tabelle 2).

Im Gegensatz dazu führten viele Transekte, bei denen die SDMs vorhergesagt hatten, dass sie Zecken hervorbringen sollten, nicht (Kommissionsfehler) zu insgesamt niedrigen Schätzungen von PPV und Spezifität (Tabelle 2). Dies scheint hauptsächlich durch Vorhersagen einer Minderheit der SDMs angetrieben worden zu sein. Von 30,8 bis 50,9 % des Bundesstaates wurde auf der Grundlage von nur ein oder zwei SDMs vorausgesagt, dass sie erwachsene Suchticks haben. Die insgesamt niedrigen Vorhersagewerte verbesserten sich mit zunehmender Übereinstimmung zwischen den SDMs, so dass, wenn das Überwiegen von SDMs (3, 4 oder 5 Modelle) das Auftreten vorhersagte, Transekte mit Zecken am höchsten waren ( Abb. 2). Konkordanz trat in 23–27 % des Festlandes auf ( Tabelle 1) und stellte vermutlich die höchste Wahrscheinlichkeit einer Exposition gegenüber suchenden Zecken dar ( Kessler et al. 2019).

Anteil der Validierungstransekte, die ausgewachsene suchende Zeckenarten ergaben, da die Übereinstimmung des Artenverteilungsmodells (SDM) zunahm. Transekte mit einer Konkordanz von 0 ließen alle SDMs vorhersagen, dass Zeckenarten fehlen würden. Bei Transekten mit fünf Konkordanzen sagten alle SDMs voraus, dass bestimmte Zeckenarten vorhanden sein würden. Die vertikale Achse ist der Prozentsatz der Transekte in den Konkordanzkategorien (Tabelle 1), die bestimmte Zeckenarten ergaben.

Anteil der Validierungstransekte, die ausgewachsene suchende Zeckenarten ergaben, da die Übereinstimmung des Artenverteilungsmodells (SDM) zunahm. Transekte mit einer Konkordanz von 0 ließen alle SDMs vorhersagen, dass Zeckenarten fehlen würden. Bei Transekten mit fünf Konkordanzen sagten alle SDMs voraus, dass bestimmte Zeckenarten vorhanden sein würden. Die vertikale Achse ist der Prozentsatz der Transekte in den Konkordanzkategorien (Tabelle 1), die bestimmte Zeckenarten ergaben.

Die 6/74-Transekte, die die Modelle vorhergesagt haben, hätten sie nicht not A. americanum waren Auslassungsfehler-Transekte (Tabelle 2). Diese Transekte befanden sich in der Nähe der Stelle, an der SDMs das Auftreten vorhersagten (Abb. 1A, Einschub zum Beispiel). Alle sechs Transekte befanden sich im Umkreis von einem halben Kilometer um geeignete Habitate und die Hälfte lag im Umkreis von 300 m (=3 Pixel). Bemerkenswerterweise befanden sich diese Transekte mit „Auslassungsfehlern“ auf einer bestimmten Landform im Norden und Westen Floridas an der Küste. Diese Transekte befanden sich auf verlassenen kommerziellen Straßenbahnen in Sümpfen, die zur Zypressenernte verwendet wurden.


Kapitel 7 - Ökologische Ähnlichkeit

Das Kapitel gibt einen Überblick über die wichtigsten Assoziationsmaße zwischen Objekten oder Deskriptoren, die in der Ökologie verwendet werden, um Objekte oder Deskriptoren zu clustern oder Ordinationsdiagramme in Räumen mit reduzierter Dimensionalität zu erstellen. Das Kapitel umfasst die Diskussion der folgenden Themen: Q- und R-Analysen (dreidimensionale Datenbox, O-Analysemodus, P-Analysemodus, Q-Analysemodus, R-Analysemodus, S-Analysemodus, T -Analysemodus, Auswahl zwischen Q- und R-Modus, A-Raum und metrischem oder euklidischem Raum), Assoziationskoeffizienten (Ähnlichkeitskoeffizienten, Abstandskoeffizienten, Abhängigkeitskoeffizienten, Doppel-Null-Problem, asymmetrischer Koeffizient und symmetrischer Koeffizient), Ähnlichkeitskoeffizienten in Q-Modus (symmetrische binäre Ähnlichkeitskoeffizienten, asymmetrische binäre Ähnlichkeitskoeffizienten, symmetrische quantitative Ähnlichkeitskoeffizienten, fehlende Werte, partielle Ähnlichkeitsmatrix, asymmetrische quantitative Ähnlichkeitskoeffizienten und probabilistische Ähnlichkeitskoeffizienten), Distanzkoeffizienten im Q-Modus (metrische Eigenschaften, Unähnlichkeitskoeffizienten, metrischer Abstand) Koeffizienten und semimetrische Distanzkoeffizienten), Abhängigkeitskoeffizienten im R-Modus (Abhängigkeitskoeffizienten für andere Deskriptoren als Artenhäufigkeiten, Abhängigkeitskoeffizienten für Artenhäufigkeiten und biologische Assoziationen), Wahl eines Koeffizienten (Kriterien und geordnete Vergleichsfallreihen) und Transformationen für Daten zur Zusammensetzung der Gemeinschaft (Transformationsformeln, Akkordtransformation, Transformation des Artenprofils, Hellinger .) Transformation, Chi-Quadrat-Distanz-Transformation, Chi-Quadrat-Metrik-Transformation, Beals-Glättung). Numerische Methoden werden mit realen ökologischen Anwendungen aus der Literatur illustriert. Das Kapitel endet mit einer Beschreibung relevanter Software, die in der Sprache R implementiert ist, und zitiert auch einige kommerziell erhältliche Statistikpakete und Programme von Forschern.


Vorhersage der Verteilung von Meeresorganismen auf globaler Ebene

Wir präsentieren und evaluieren AquaMaps, ein Modellsystem zur Modellierung der reinen Artenverteilung, das die Einbeziehung von Expertenwissen über die Habitatnutzung ermöglicht und für die maximale Ausgabe von standardisierten Artenreichweitenkarten auf globaler Ebene entwickelt wurde. In der Meeresumwelt stellt die Erstellung von Verbreitungskarten eine erhebliche Herausforderung dar, da die Menge und der Ort der Vorkommensdaten für die meisten Arten stark verzerrt sind. AquaMaps wird mit traditionellen Modellierungsmethoden für die Verbreitung von Arten verglichen, um die Qualität der Ergebnisse unter gleichwertig automatisierten Bedingungen zu bestimmen. Auch die Auswirkung der Einbeziehung von Expertenwissen in AquaMaps wird untersucht. Die Modellausgaben wurden intern durch Datenpartitionierung und extern mit unabhängigen Umfragedaten getestet, um die Fähigkeit von Modellen zu bestimmen, Anwesenheit und Abwesenheit vorherzusagen. Die Modelle wurden auch extern getestet, indem die Korrelation mit unabhängigen Umfrageschätzungen der relativen Artenhäufigkeit bewertet wurde. Die Ergebnisse von AquaMaps lassen sich gut mit den getesteten vorhandenen Methoden vergleichen, und die Einbeziehung von Expertenwissen führt zu einer allgemeinen Verbesserung der Modellergebnisse. Die Transparenz, Geschwindigkeit und Anpassungsfähigkeit des AquaMaps-Systems sowie das bestehende Online-Framework, das eine Expertenbewertung ermöglicht, um Stichprobenverzerrungen zu kompensieren und so die Modellvorhersagen zu verbessern, werden als zusätzlicher Nutzen für die öffentliche und die Forschung gleichermaßen vorgeschlagen.


Fazit

Die Existenz und der potenziell geeignete Lebensraum von C. chinensis wurden unter Verwendung der besten Maxent-Modellierung bewertet und vorhergesagt, die sowohl vom AUC-Index als auch vom TSS-Index bewertet wurde. Aus insgesamt 19 bioklimatischen Variablen wurden sechs bioklimatische Hauptvariablen ausgewählt, die die Artenverteilung beeinflussen.Dies sind die Jahresmitteltemperatur, Isothermalität, Temperatursaisonalität, Niederschlagssaisonalität, Niederschlag des wärmsten Viertels und Niederschlag des kältesten Viertels. Die Kontrolle von Temperatur und Niederschlag kann sowohl vorbeugen als auch schützen C. chinensis. Der geeignete Lebensraum von C. chinensis wird hauptsächlich in China vertrieben. Im Vergleich zu seiner heutigen Verbreitung bot das mittlere Holozän ein größeres klimatisch geeignetes Gebiet für C. chinensis, sowie Zentral- und Südchina besonders geeignet. Die Simulationsergebnisse von C. chinensis Habitateignung in RCP2.6 und RCP8.5 zeigte, dass die C. chinensis Die Habitateignung nahm aufgrund des sich erwärmenden Klimas ab. Dies deutet auf einen abnehmenden Trend für die C. chinensis in Zukunft verteilen. Neben den oben genannten bioklimatischen Variablen können auch andere Faktoren den geeigneten Lebensraum von Pflanzen beeinflussen, wie Boden, geografische Barrieren, menschliche Störungen und Wirtsverteilung [41, 42]. Obwohl diese Studie nur die Auswirkungen des Klimas auf die C. chinensis, wenn die Auswirkungen menschlicher Aktivitäten, geografischer Barrieren, Bodenbeschaffenheit auf die Vegetation und die Wirtsverteilung umfassend berücksichtigt werden, die Verteilung von C. chinensis genauer vorhergesagt werden könnte. Ein Fehler beeinträchtigt jedoch die Genauigkeit von ENMs, die entscheidend von der Qualität der Ereignisdaten abhängt und häufig willkürlich gesammelte Daten verwendet. Obwohl die maximale Anzahl von Hintergrundpunkten auf 10.000 festgelegt wurde, wurden die verwendeten Hintergrunddatensätze auf Asien beschränkt, um dem Bias des Puffers der Erscheinungsdatensätze zu entsprechen.


Diskussion

Diese Studie konzentriert sich hauptsächlich auf die Analyse von Convolutional Neural Network (CNN)-Modellen zur Vorhersage der Pflanzenverteilung. Um sicherzustellen, dass diese Analyse von Interesse ist, validieren wir unser Modell zunächst gegen andere häufiger verwendete Modelle wie Boosted Trees (BT) und Random Forest (RF). Wir vergleichen das CNN auch mit einem ähnlichen Deep non-convolutional Neural Network (DNN). Die vorgeschlagene Hauptmetrik ist der Mittelwert Top-k-Genauigkeit pro Art. Diese Metrik ist an unseren Datensatz angepasst, der nur präsenzbasiert, großräumig (großes Gebiet und zahlreiche Arten) und gemäß einer langen Schwanzverteilung zwischen den Arten stark unausgewogen ist. Wir bieten auch die Bewertung des CNN und des besten punktuellen Modells, des RF, zu den üblicheren Metriken AUC und TSS an. Die Haupteinschränkungen dieser Metriken sind (i) die durch die Generierung der Pseudo-Abwesenheitsdaten induzierte Verzerrung und (ii) die Irrelevanz der Bewertung für die Arten mit den wenigsten Vorkommen, insbesondere solche mit nur einem oder zwei Vorkommen. Die Ergebnisse von CNN und RF lagen mit diesen Metriken nahe beieinander. Insbesondere CNN und RF erzielten ähnliche Werte für die mittlere AUC über alle Arten. Das Boxplot der artbezogenen AUC-Werte zeigte, dass CNN für die meisten Arten zwar besser ist, Ausreißer jedoch den Mittelwert tendenziell verschlechtern. Diese Ergebnisse zeigen, dass die üblichen Metriken für SDM (AUC, TSS usw.) nicht unbedingt die geeignetsten für den untersuchten Modelltyp sind. Die Wahl der Pseudo-Abwesenheit kann die Bewertung der Modelle künstlich beeinflussen. In unserem Kontext ist diese Auswahl besonders schwierig, der Beprobungsaufwand ist räumlich sehr uneinheitlich und die lange Schwanzverteilung führt zu sehr wenigen Beobachtungen für viele Arten. Unsere Wahl der Pseudo-Abwesenheit wird getroffen, um möglichst wenig Verzerrungen zu haben, aber die verbleibenden Verzerrungen sind immer noch schwer zu bewerten. Insbesondere die Wahl anderer Artenvorkommen als Pseudoabwesenheit kann die Arten mit großen Verbreitungen oder die Arten, die in Habitaten mit hohem Artenreichtum vorkommen, stärker betreffen. Im Kontext von Mehrartenmodellen können diese Bewertungen ein Modell benachteiligen, dessen Stärke darin besteht, kohärente Artengruppen zu identifizieren. Darüber hinaus sind unsere Modelle für reine Anwesenheitsdaten ausgelegt und optimiert, um kategoriale bedingte Wahrscheinlichkeiten und nicht Anwesenheitswahrscheinlichkeiten vorherzusagen. Dies kann aufgrund seiner Funktionsweise, die für jede Art auf der letzten Schicht des Netzwerks ein individuelles lineares Modell erzeugt, leicht für das CNN angepasst werden. Diese Logits-Schicht ermöglicht dann eine Vorhersage für jede Art, die global von der anderen Art abhängt (durch das Lernen mehrerer Arten), aber nicht direkt von der Vorhersage der anderen Art an einem bestimmten räumlichen Punkt abhängt. Dies ist für das RF-Modell, das ein Klassifikator ist und direkt die relativen Wahrscheinlichkeiten zurückgibt, nicht möglich. Um diesen Effekt zu begrenzen, ist es möglich, eine Skalierung zu verwenden, um vorhergesagte Werte zwischen 0 und 1 für jede Spezies zurückzugeben, aber die erhaltenen Werte bleiben abhängig von den Werten der anderen Spezies. Aus all diesen Gründen wählen wir dann den Mittelwert Top-k-Genauigkeit pro Art als Hauptbewertungsmaßstab für die untersuchten Modelltypen. Diese Metrik hat zwei Hauptvorteile: (i) sie wird nicht durch die räumliche Verteilung des Beobachtungsaufwands verzerrt (da sie auf der Artwahrscheinlichkeit bedingt durch eine Beobachtung basiert) und (ii) sie ermöglicht die Bewertung der Fähigkeit des Modells, kohärente Artengruppen gemeinsam vorhersagen. Wir glauben auch, dass diese Metrik auch nicht perfekt ist, da die Größe der an einem bestimmten Ort beobachtbaren Artenmenge variabel sein kann. Daher planen wir in zukünftigen Arbeiten an einer adaptiveren Version der Mengenvorhersagebewertung zu arbeiten (wie beispielsweise in [43] untersucht).

Unsere Experimente bestätigten erstmals frühere Ergebnisse der Literatur, dass CNN-SDMs besser abschneiden als modernste Methoden wie Boosted Trees oder Random Forest, aber auch als Deep Neural Networks, die punktuelle Umweltinformationen (DNN-SDMs) verwenden. DNN-SDMs basierten auf der gleichen Architektur wie CNN-SDMs, waren jedoch gegenüber Umgebungsumgebungen in der Landschaft um die Vorkommenspunkte blind. Daher ist die Umgebungsumgebung für die Vorhersage wichtiger als die pünktliche Umgebung. Die Leistung ist insbesondere bei selteneren Arten im Datensatz höher, während CNN-SDMs bei häufigeren Arten weniger effizient waren als Boosted Tree und Random Forest. Dieses zentrale Ergebnis ist sowohl von theoretischem als auch praktischem Interesse, da seltene Arten (oft mit engen geografischen Verbreitungen und speziellen Habitatanforderungen [44]) zahlreicher, notorisch schwieriger vorherzusagen und für den Schutz und das Management wichtig sind. Es gibt eine lange Debatte darüber, wie räumliche Autokorrelation in Artenverteilungen sowohl aus der Umweltstruktur als auch aus der Artendynamik hervorgeht [45, 46] und wie Raum bei der Analyse von Biodiversitätsmustern berücksichtigt werden sollte [47]. Das CNN-SDM basiert auf Umwelttensoren, die nicht nur die punktuellen Umweltbedingungen der beprobten Standorte, sondern auch die umgebenden Umweltbedingungen und deren räumliche Strukturierung darstellen. Um besser zu verstehen, welche Informationen in der Umgebung eine Leistungssteigerung des CNN-SDM ermöglichen, haben wir einen originellen Benchmark alternativer CNN-SDMs basierend auf transformierten Tensoren entwickelt, wobei jeder entweder die räumliche Struktur auf Landschaftsebene oder die Heterogenität der Umweltfaktoren verwirft. Durch den Vergleich dieser CNN-SDMs konnte festgestellt werden, welche Informationen in den Tensoren die Vorhersagekraft verbesserten. CNN-SDM, das auf unmodifizierten Tensoren berechnet wurde, übertraf alle CNN-SDMs, die auf transformierten Tensoren gelernt wurden. Insbesondere ist der auf unmodifizierten Tensoren berechnete CNN-SDM besser als die auf permutierten oder gemittelten Tensoren gelernten CNN-SDMs. Der Vergleich unterstreicht, dass nicht nur der Durchschnitt oder die Varianz der Umgebung in der Landschaft, sondern auch deren räumliche Strukturierung von Bedeutung ist. Dieses Ergebnis wird durch das auf standardisierten Tensoren (Struktur) gelernte Modell bestätigt, das besser ist als die auf permutierten oder gemittelten Tensoren gelernten Modelle, was zeigt, dass die räumliche Struktur genauso wichtig, wenn nicht sogar wichtiger ist als der Wert der Umgebung für das Modell. Die Anpassung von CNN-SDMs an reale Tensoren könnte somit den Einfluss sowohl der lokalen Umweltwerte als auch der räumlichen Strukturierung auf Landschaftsebene erfassen. CNN-SDMs könnten eine erhebliche Vorhersagekraft erlangen, indem sie die räumliche Strukturierung der Umgebung um Standorte, d.h., die lokale Landschaftsstruktur.

Diese Ergebnisse unterstützen die Rolle ökologischer Prozesse auf Landschaftsebene bei der Gestaltung der Artenverteilung. Insbesondere die räumliche Struktur der Habitatfragmentierung [48] und die Menge an günstigen Habitaten [49] in der Landschaft können beide die Populationspersistenz an bestimmten Standorten beeinflussen [50]. Eine bessere Vorhersagefähigkeit von CNN-SDMs unterstützt in der Tat die Rolle solcher Faktoren im Landschaftsmaßstab für das Vorkommen von Arten. Für einen binären Prädiktor könnte beispielsweise der Durchschnitt in der Landschaft die verfügbare Habitatmenge darstellen, während die räumliche Struktur der Landschaft die Rolle der Konnektivität anerkennen könnte. Die Verwendung verschiedener Landschaftskonfigurationen in CNN könnte helfen, diese alternativen Hypothesen zu testen und das Potenzial des Ansatzes zum Testen von Theorien in der räumlichen Ökologie zu unterstreichen.

Lediglich die Leistung des Modells auf gedrehten Bildern kommt der des CNN-SDM auf Basis realer Umgebungstensoren nahe. Wir können jedoch einen Unterschied feststellen zwischen MSA1 und MSA40 wo das Modell mit gedrehtem Bild schlechter ist. Unsere Interpretation ist, dass die Orientierung auf Landschaftsebene (z.B. Nordhang vs. Südhang) hat Auswirkungen auf einige Arten, ist aber nicht die wichtigste Strukturinformation in den Tensoren.

Die durch maschinelles Lernen erstellten Klassifikationsschemata beinhalten wiederkehrende Motive des Vorkommens von Arten und die gemeinsamen Einflüsse der primären Umweltvariablen. Es ermöglicht somit, im Einklang mit alternativen Ansätzen wie jSDM [27] die Signaturen ökologischer Prozesse auf Artengemeinschaften zu adressieren. SDM-Ansätze, die mehrere Arten klassifizieren, können makroökologische Einschränkungen berücksichtigen und Sättigungsregeln anerkennen [51, 52]. Darüber hinaus sollten Multi-Species-SDMs robuster gegenüber Verzerrungen in den Vorkommensinformationen sein [24]. Wir stellen fest, dass das hier angesprochene Problem, d.h. die Vorhersage der relativen Wahrscheinlichkeiten von Arten, vorausgesetzt, dass es ein Vorkommen gibt, unterscheidet sich von der Vorhersage der relativen Häufigkeit des Vorkommens jeder Art im Weltraum, wie es von MAXENT [9] und allgemeiner von Poisson Point Processes-Modellen [53] gemacht wird. Die im letzteren Fall geschätzte Häufigkeitsintensität ist empfindlich gegenüber der Verzerrung des Beobachtungsaufwands [25], während wir im ersteren Fall nicht auf eine Schätzung der räumlichen Intensität abzielen. DNN und CNN sind leistungsstarke Ansätze, die komplexe Einflüsse von Umweltvariablen auf viele Arten erfassen können. Trotz dieser Komplexität haben sich Regularisierungsregeln bei der Auswahl relevanter Informationen und ausreichend sparsamer Modelle bewährt. Daher sollten CNN-SDMs in der Lage sein, sinnvolle ökologische und biogeografische Muster zu erfassen, die von vielen Arten geteilt werden, und dadurch belastbare Vorhersagen liefern.

Die Aktivierungskarten der Neuronen der letzten Schicht, d.h. die Merkmale, ermöglichen die Visualisierung der vom CNN-SDM gelernten ökologischen Muster. Wir fanden heraus, dass Neuronen in relativ großen oder mehreren Bereichen aktiv sind, was komplexe umwelt- und makroökologische Signaturen entsprechend den Umweltbedingungen auf lokaler oder Landschaftsebene darstellen könnte. Von Natur aus könnten diese integrativen Neuronen mehrere Umwelttreiber und damit ihren komplexen und gemeinsamen Einfluss kombinieren. z.B. durch Kompensationsverfahren. Einige Neuronenaktivierungskarten stimmten mit großräumigen geomorphologischen Mustern wie Bergketten oder Küstenzonen überein. Die Aktivierungskarten könnten verwendet werden, um zu untersuchen, wie aufkommende makroökologische Muster aus der Artendynamik und Umweltvariation stammen [54]. Es zeigt das Potenzial von maschinellen Lernansätzen, um großräumige makroökologische Muster aus intensiven Vorkommensdatensätzen zu entschlüsseln [55].

Unsere Studie zeigt den Nutzen der Verwendung von Convolutional Neural Networks für die Modellierung der Artenverteilung (CNN-SDMs). Erstens ermöglicht ihre Architektur das Lernen von hochgradig nichtlinearen Umgebungsdeskriptoren. Zweitens sind sie besonders effektiv für die Vorhersage der Verbreitung seltener Arten. Drittens ist ein großer Vorteil die Fähigkeit von CNN, sehr hochdimensionale Daten wie Umwelttensoren zu verwenden. Tatsächlich zeigt unsere Studie, dass die CNN-SDMs Informationen über die Strukturierung von Umweltlandschaften durch Umwelttensoren erfassen. Diese Informationen sind reicher als die punktuelle Umgebung, aber für konventionelle Modelle nicht zugänglich.


Schau das Video: FLÄCHENBERECHNUNG: zusammengesetzte Figuren (Oktober 2021).