Mehr

Histogramm/Statistik/Streudiagramm mit dem Klassifizierungswerkzeug in ArcMap erstellen?


Ich arbeite derzeit an einer Landbedeckungsklassifizierung mit Landsat 8-Bildern. Ich habe die Bilder bereits einer Vorverarbeitung unterzogen (atmosphärische und topografische Korrektur) und zwei Bilder mosaikiert. Jetzt möchte ich eine Klassifizierung in ArcMap anwenden. Ich verstehe, was ich tun soll, aber irgendwie schaffe ich es nicht, die Statistiken / Histogramme / Streudiagramme zu erstellen. Wenn ich auf die Statistik klicke, sind alle Werte null. Wenn ich mir andererseits die Eigenschaften der Raster-Layer ansehe, sehe ich die Statistik, die mit dem Werkzeug 'Statistik berechnen' berechnet wurde. Es erstellt überhaupt kein Histogramm und die Streudiagramme sind nur 1 Punkt in der Mitte des Bildschirms. Weiß jemand was mein Problem ist und wie ich das beheben kann?


Das Problem könnte sein, dass Sie in der Klassifizierungssymbolleiste nicht den richtigen Raster-Layer ausgewählt haben.

Überprüfen Sie einfach den Raster-Layer, der in der Klassifizierungssymbolleiste hervorgehoben ist, und vergewissern Sie sich, dass es sich um das gleiche Raster handelt, das Sie klassifizieren wollten.


Wenn Ihr Raster Gleitkomma ist, haben Sie dieses Problem. Sie müssen also ganzzahlig sein, das Math-Tool Int() hilft Ihnen dabei.


Epidemiologie und ArcGIS Insights - Teil 1

Ich habe den größten Teil meiner beruflichen Laufbahn in der Raumanalyse und Epidemiologie verbracht. Dies waren Begriffe, die oft mit leeren Blicken beantwortet wurden, wenn ich gefragt wurde, was ich tue. Aber jetzt, nach Jahren der Erklärung, was sie bedeuten und darüber hinaus, wie GIS zusammenhängt, sind während der COVID-19-Pandemie früher Fachbegriffe wie „Epidemiekurve“ in die Alltagssprache eingedrungen. Es scheint daher eine perfekte Zeit für einen kurzen Blog zu diesem Thema.

Die Epidemiologie ist an der Schnittstelle verschiedener Disziplinen angesiedelt und nutzt Wissen und Methoden beispielsweise aus den Bereichen Gesundheit, Medizin und Statistik. Selbst innerhalb des breiten Rahmens der Epidemiologie gibt es zahlreiche Disziplinen, die sich auf Infektionskrankheiten, Genetik, chronische Krankheiten sowie Umwelt- und Raumepidemiologie konzentrieren. Obwohl ich leidenschaftlich über Umwelt- und Raumepidemiologie schreiben konnte, habe ich versucht, diesen Blog etwas allgemeiner zu halten, dachte aber, ich sollte meine (räumliche) Voreingenommenheit im Voraus erklären. Aus Gründen der Konsistenz werde ich in dieser Übersicht die Epidemiologie anhand von COVID-19-Beispielen aus dem April 2020 demonstrieren. Ich werde auch zeigen, wie ArcGIS Insights eine leistungsstarke und dennoch zugängliche Lösung für einige der analytischen Anforderungen des Epidemiologen bietet und wie dies sein kann im Einklang mit anderen weit verbreiteten epidemiologischen Ansätzen verwendet wird und wie es dazu beitragen kann, Informationen an die breite Öffentlichkeit und Entscheidungsträger zu übermitteln.

Ich habe zehn Schlüsselthemen identifiziert, die ich kurz mit Beispielen untersuchen werde. Diese werden auf zwei Blogs aufgeteilt, um sie auf der Länge der Kaffeepausen zu halten! Insgesamt identifizieren die beiden Blogs zehn Hauptbereiche epidemiologischer Studien und den Anwendungsbereich von GIS, um einen analytischen Rahmen zu bieten. In Teil 1 werde ich die ersten fünf Bereiche skizzieren. In Teil 2 werde ich es mit weiteren fünf Bereichen auf zehn aufrunden.

Merkmale von Gesundheitsdaten

Selbst die einfachsten Daten zu Gesundheitsereignissen werden auf sehr unterschiedliche Weise gesammelt, analysiert und gemeldet. Die Gesamtzahl der Fälle und die Rate der Gesundheitsereignisse werden oft synonym verwendet, doch jeder vermittelt sehr unterschiedliche Informationen.

Die Gesamtzahl der Gesundheitsveranstaltungen kann für die Kapazitätsplanung und Finanzierung wertvoll sein. In Zeiten einer gesundheitlichen Reaktion ist die Zahl der Gesundheitsereignisse wie Tod, Geburt und Krankenhausaufenthalt wertvoll, um das Ausmaß der erforderlichen Präventionsmaßnahmen oder sogar der erforderlichen Gesundheitsversorgung zu quantifizieren.

In den meisten anderen Situationen kann die Zahl der Gesundheitsereignisse nur in Bezug auf die Größe der Bevölkerung verstanden werden, aus der sie abgeleitet wird. In der Epidemiologie ist eine Rate die Häufigkeit des Auftretens von Ereignissen in einer definierten Population über einen bestimmten Zeitraum. Die Raten sind daher nützlich, um Gesundheitsereignisse in verschiedenen Populationen zu vergleichen.

Das Abbilden von Summen und Raten erfordert auch unterschiedliche Techniken, wobei am häufigsten proportionale Symbole bzw. Choropleten verwendet werden. Berücksichtigen Sie auch die Projektion, mit der Ihre Karte angezeigt wird, insbesondere bei Tarifen, wenn Werte nach Flächen angezeigt werden, und insbesondere bei größeren Flächen (d. h. kleineren Maßstäben).

Gesundheitsdatenverteilungen

Vor jeder Modellierung müssen Daten untersucht und gut verstanden werden. Viele Ansätze erfordern die Erfüllung einer Reihe von Annahmen. Gesundheitsereignisse sind in der Regel durch seltene, manchmal wiederkehrende Ereignisse gekennzeichnet, z. B. Krankenhauseinweisungen, die nicht normal verteilt sind, stark positiv verzerrt mit einer Poisson-Verteilung (Poisson-Verteilung wird verwendet, um die Verteilung seltener Ereignisse in einer großen Population zu beschreiben). In den meisten Gesundheitsanalysen gibt es oft starke Wechselbeziehungen, und Datenkollinearität ist für einige Methoden ein wichtiger Aspekt.

Um Datenverteilungen zu verstehen, können Histogramme und Boxplots zusammen mit Statistiken wie Schiefe und Kurtosis verwendet werden. Datenkorrelationen zwischen Variablen können mithilfe von Scatterplots und Scatterplot-Matrizen bewertet werden, während die Regressionsanalyse verwendet werden kann, um die Stärke und Richtung der Beziehung zwischen abhängigen und unabhängigen Variablen abzuschätzen. Auch räumliche Datenverteilungen sollten analysiert werden, um auf Datenlücken, Muster oder Schiefe zu prüfen.

Ein Histogramm ermöglicht die Untersuchung der Verteilung numerischer Daten. Sie ermöglichen eine visuelle Beurteilung von Verteilungsform, zentraler Tendenz, Datenvariation und Lücken oder Ausreißern in Datenwerten. Dem Histogramm können einige Statistiken hinzugefügt werden, z. B. Mittelwert, Median und Normalverteilung. Auf den Daten können auch zusätzliche zugehörige Statistiken berechnet werden, die in ArcGIS Insights automatisch auf der Rückseite der Karten angezeigt werden, um die Karte zu quantifizieren. Ein Histogramm mit Normalverteilung ist symmetrisch und hat eine Schiefe von 0. Die Richtung der Schiefe wird durch das Ende der Verteilung angezeigt. Wenn das Ende rechts länger ist (wie oben gezeigt), ist die Schiefe positiv. Wenn der Schwanz auf der linken Seite länger ist, ist die Schiefe negativ.

Boxplots können nach einer kategorialen Variablen wie dem Zustand gruppiert werden, was einen Vergleich von Verteilungen ermöglicht. Die Daten werden so aufgetragen, dass sich 50 % der Daten innerhalb der Box zwischen dem unteren (Q1) und oberen (Q3) Quartil befinden und der Median als Linie dargestellt wird. Schnurrhaare enthalten weitere 25 % der Daten, oberhalb und unterhalb des Interquartilsabstands (IQR), also der Länge der Box (oberes Quartil – unteres Quartil). Werte, die über 1,5 IQR hinausgehen, sind Ausreißer.

Die visuelle Untersuchung von Daten ist ein wichtiger Analyseschritt und kann Modellierungsfehler mindern. Während der Modellierung werden Daten häufig aggregiert, um sicherzustellen, dass die Analyse genügend Datenpunkte enthält, um eine statistische Robustheit zu gewährleisten. Dieser Schritt kann jedoch fehlende Daten oder Änderungen der Datenerfassung verbergen, z. B. Änderungen in der internationalen Klassifikation der Verfahren zur Codierung von Krankheiten.

Verschiedene Visualisierungen geben eine andere Perspektive auf Daten, und die Möglichkeit, Daten auf vielfältige Weise zu untersuchen und zu visualisieren, kann zum Verständnis vieler Aspekte der Studiendaten beitragen. Je aufwändiger die Analyse, desto wichtiger ist es, Daten zu beschreiben und zu visualisieren, bevor eine Modellierung durchgeführt wird.

Zeitliche Dimensionen von Gesundheitsdaten

Zeitassoziationen und -muster mit epidemiologischen Daten werden am häufigsten mithilfe von Liniendiagrammen für kontinuierliche Datums-/Uhrzeitdaten und Epidemiekurven visualisiert, die traditionell Balken ohne Lücken verwenden.

Epidemiekurven zeigen grafisch die Häufigkeit neuer Fälle im Vergleich zum Datum des Krankheitsbeginns. Eine Epidemie- oder Epi-Kurve zeigt auf der x-Achse und vertikal das Datum oder die Uhrzeit des Krankheitsbeginns unter den Fällen, die y-Achse zeigt die Anzahl der Fälle. Die verwendete Zeiteinheit basiert auf der Inkubationszeit der Krankheit und der Zeit, auf die sich die Fälle verteilen. Die Gesamtform der Kurve kann die Art des Ausbruchs aufdecken (z. B. gemeinsame Quelle, Punktquelle oder Ausbreitung).

Epidemiologische Analysen können Daten umfassen, die sich über lange Zeiträume erstrecken (um genügend Ereignisse oder seltene Ergebnisse zu erfassen), innerhalb derer möglicherweise viele Änderungen an der Datenerhebungsmethode vorgenommen wurden. Als Teil des Analyseprozesses sollten die Eingabedaten gut verstanden und Einschränkungen insbesondere bei Studien mit komplexen Wechselwirkungen, die möglicherweise nicht vollständig verstanden werden, beachtet werden. Dasselbe könnte für neue Krankheiten gelten, die per Definition kaum verstanden werden. Obwohl Informationen aus der Vergangenheit und ähnliche Ereignisse verwendet werden, um potenzielle Krankheitsmuster zu verstehen, die sich über Raum und Zeit verteilen, sind Daten, die in den frühen Phasen gemeldet wurden, anfällig für unbekannte (und nicht quantifizierbare) Fehler und Unsicherheiten. Diese Unsicherheit hat den zusätzlichen Einfluss, dass es schwer zu verstehen ist, ob frühere Ereignisse tatsächlich ähnlich und daher vergleichbar sind.

Die Visualisierung von Zeitdaten auf einer Zeitachse hilft, Datenlücken, beispielsweise bei der Datenerfassung, aufzudecken. Die Analyse von Daten, die sich über Raum und Zeit ändern können, sollte nicht erfolgen, ohne die Daten vor der Analyse sowohl zeitlich als auch räumlich auszuwerten.

Viele Zeitanalysen werden generische Daten verwenden, wie zum Beispiel die Ergebnisse zehnjähriger Volkszählungen, um Muster zwischen verschiedenen Bevölkerungsuntergruppen zu bewerten. Je weiter Sie jedoch von einem Volkszählungsjahr entfernt sind, desto mehr nimmt die Genauigkeit dieser Daten ab. Obwohl diese Einschränkung akzeptiert werden muss, kann die Untersuchung der zeitlichen Unterschiede zwischen den bekannten Daten bei der Modellierung und sicherlich bei der Interpretation hilfreich sein.

Umgang mit unterschiedlichen Gesundheitsregionen

Interventions- und Reaktionsbereiche können sich von denen der epidemiologischen Analyse unterscheiden und haben jeweils sehr unterschiedliche Anforderungen. Der Reaktionsbedarf kann beispielsweise von Gesundheitsregionen bestimmt werden, während die Analyse aufgrund der Verfügbarkeit zusätzlicher Daten und der (oft angenommenen) sozioökonomischen Homogenität dieser Gebiete eher auf die Erhebungsgebiete ausgerichtet ist.

Die räumliche Analyse kann verwendet werden, um das bzw. die Untersuchungsgebiete zu definieren. Sie können die Daten filtern, indem Sie Gebiete aus der Karte auswählen oder zusätzliche Grenzdatensätze verwenden. Dies kann nützlich sein, um Daten in exponierte Populationen oder Fälle und nicht exponierte oder Kontrollpopulationen zu unterteilen. Die meisten der für die Analyse verwendeten Daten werden basierend auf Verwaltungsgrenzen aggregiert, während exponierte Populationen nicht nach Verwaltungsgebieten definiert sind.

In einigen Fällen, wenn das Dataset räumliche Einheiten als Datenfeld enthält, können Daten nicht-räumlich anhand verschiedener geografischer Grenzen analysiert werden. In anderen Fällen, wenn die Daten in geographische Gebiete, die nicht im Datensatz enthalten sind, „verschoben“ werden müssen, kann der räumliche Standort verwendet werden, um die Daten in andere Gebiete zu „verschieben“. In diesen Fällen können die Daten als Einzelzählungen oder sogar gesamt nach Gebiet vorliegen. Die Neuaufteilung von Daten zwischen verschiedenen Geographien ermöglicht die Übersetzung von Daten zwischen sehr unterschiedlichen Geographien und ermöglicht somit die Meldung aggregierter Daten an verschiedenen Grenzen.

Traditionell gibt es deutliche sozioökonomische Unterschiede zwischen Stadt- und Landbevölkerung. Obwohl sich dieser Trend allmählich zu ändern beginnt, hängen die Genauigkeit und Genauigkeit der Geodaten oft mit der Bevölkerungsdichte zusammen, wobei ländliche Gebiete dazu neigen, große Gebiete abzudecken, die erhebliche soziale und wirtschaftliche Unterschiede aufweisen können. Diese Unterschiede können zu Disparitäten zwischen städtischen und ländlichen Gebieten führen. Die Einbeziehung der räumlichen Analyse gewährleistet eine einfache Stratifizierung der Daten, beispielsweise nach Stadt/Land für epidemiologische Modellierungen.

Verschiedene Arten von Datenverknüpfungen für die Gesundheitsanalyse

Traditionell speichert ein GIS räumliche Daten als Feature nach Standort. Die Daten können Rasterdaten sein, die regelmäßige Zellen verwenden, oder Vektordaten, die Punkte, Linien oder Polygone (Flächen) verwenden. An jedem Standort können eine oder mehrere zugehörige Informationen vorhanden sein (z. B. Bevölkerung nach Verwaltungsgebiet). In der Epidemiologie müssen jedoch fast alle Analysen mehrere Komponenten nach Standort umfassen (z. B. Bevölkerung nach Alter und Geschlecht). Technisch erfordert dies eine Eins-zu-Viele-Beziehung (Merkmal zu Gesundheit und demografischen Variablen).

Um diese unterschiedlichen Datenstrukturen zu überwinden, können Daten als Schritt der Analyse zusammengeführt werden, sodass jeder Ort, sei es dieser Punkt, diese Linie oder Fläche, mit mehreren Attributen oder Informationszeilen verknüpft werden kann. Dies ist ein entscheidender Schritt, um sicherzustellen, dass räumliche und epidemiologische Analysen erfolgreich integriert werden können. Darüber hinaus sind in einigen Fällen zusammengesetzte Verknüpfungen (z. B. unter Verwendung von Ort und Zeit) erforderlich.

Zusammenfassung

In diesem Blog wurden fünf Themen, die in der Epidemiologie zu berücksichtigen sind, kurz umrissen und wie ArcGIS Insights als Teil der Analyselösung verwendet werden kann.

Viele dieser Themen sind viel komplexer und wie bei jeder analytischen Arbeit erfordert eine effektive Analyse verlässliche Daten, gepaart mit fundiertem Wissen über einschlägige Vorstudien. Ein Epidemiologe sollte sich mit einem Mangel von beidem gut auskennen und oft liegt hier die wahre Expertise.

Komplexe Modelle und eine effektive Kommunikation der Ergebnisse sind ein wesentlicher Bestandteil des Prozesses. In Teil 2 dieses Blogs werden wir unter anderem diese Themen untersuchen.


Wenn Sie dieses Material zu Lehr-, Forschungs- oder sonstigen Zwecken verwenden, lassen Sie es mich (Andy) bitte über Twitter oder E-Mail wissen — a [dot] maclachlan [at] ucl [dot] ac [dot] uk).

Teilen — das Material in jedem Medium oder Format kopieren und weitergeben

Anpassen — das Material für jeden Zweck, sogar kommerziell, neu mischen, umwandeln und darauf aufbauen.

Sie geben jedoch eine angemessene Gutschrift an, stellen einen Link zur Lizenz bereit und geben an, ob Änderungen vorgenommen wurden. Wenn Sie das Material remixen, transformieren oder darauf aufbauen, müssen Sie Ihre Beiträge unter derselben Lizenz wie das Original verteilen.

Sie müssen jedoch nicht die Lizenz für Elemente des Materials einhalten, die öffentlich zugänglich sind oder wenn Ihre Nutzung durch eine anwendbare Ausnahme oder Einschränkung gestattet ist.

Der Code in diesem praktischen Buch ist unter der MIT-Lizenz erhältlich und kann daher (für jeden Zweck) kostenlos verwendet werden, solange Sie die Quelle angeben.


Steuerelemente für die Streudiagramm-Navigation

  • Klicken Sie zum Vergrößern oder Verkleinern des Diagramms in das Streudiagramm und drehen Sie das Mausrad nach oben, um hineinzuzoomen, und nach unten, um es zu verkleinern. Oder halten Sie die mittlere Maustaste (Rad) gedrückt und verwenden Sie Strg+Ziehen Sie, um einen Rahmen um den Bereich zu ziehen, in den Sie hineinzoomen möchten. Um die Plotansicht zurückzusetzen, klicken Sie auf das Bereich zurücksetzen Taste .
  • Wenn das Streudiagramm nicht in Vollband Modus können Sie sowohl in das Bildfenster als auch in das Streudiagramm hineinzoomen. Klicken Sie in das Bildfenster und drehen Sie das Mausrad nach oben oder unten.
  • Sie können auf andere Manipulatoren in der Hauptsymbolleiste klicken, um im Bildfenster zu zoomen, zu schwenken, zu fliegen usw. Um den Fokus zum Streudiagramm-Fenster zurückzukehren, klicken Sie auf das Streudiagramm-Tool Taste.

In diesem wichtigen Update hat SpaceStat den Bereich der Import-/Exportdateitypen auf das Geodatabase-Format (gdb) erweitert. Die fortschrittlichen Visualisierungs-, Raum-Zeit-Analyse- und Modellierungstechniken von SpaceStat lassen sich leicht in Arbeitsabläufe integrieren, die Esri-Technologien verwenden. Sie können beispielsweise ArcGIS von Esri verwenden, um Ihre Daten zu erfassen, zu bearbeiten und zu manipulieren und dann SpaceStat verwenden, um zeitdynamische Daten zu analysieren, um Gesundheitsinterventionen auszurichten, Gesundheitsunterschiede zu bewerten und prädiktive Modellierungen durchzuführen.

(Hinweis zur Terminologieänderung: Basierend auf den Ergebnissen von Usability-Studien und einer von uns durchgeführten Umfrage haben wir in dieser Version den Methodennamen “räumliche Interpolation” in “scale Conversion/Interpolation” geändert, um unseren Benutzern das Verständnis zu erleichtern mehrere Anwendungen, die dieses Verfahren für unsere Benutzer bereitstellen kann.)

(Esri und esri.com sind Marken, eingetragene Marken oder Dienstleistungsmarken von Esri in den USA, der Europäischen Gemeinschaft oder bestimmten anderen Gerichtsbarkeiten.)


Histogramm/Statistik/Streudiagramm mit dem Klassifizierungswerkzeug in ArcMap erstellen? - Geografisches Informationssystem

Bildverarbeitungsanwendung zum Anzeigen und Analysieren von Geodaten

Sie müssen sich anmelden, bevor Sie dieses Tool ausführen können.

Ausführung 3.51 - veröffentlicht am 10.09.2020

Kategorie

Veröffentlicht auf

Abstrakt

MultiSpec ist ein Bildverarbeitungstool zum Anzeigen und Analysieren von Geodaten. Die Online-Version verfügt über alle Funktionen der Macintosh- und Windows-Desktop-Versionen. Weitere Informationen zu MultiSpec finden Sie auf der MultiSpec-Website.

Beachten Sie, dass Sie auf mygeohub ein Konto erstellen (registrieren) müssen. Sie können es so einrichten, dass Sie eingeloggt bleiben, damit Sie sich nicht jedes Mal neu einloggen müssen. (Beachten Sie, dass es nach der Registrierung eine Verzögerung gibt, bevor das Konto genehmigt wird. Senden Sie eine E-Mail an bڞhl@puܭue.ٝu, um die Genehmigung des Kontos zu überprüfen.)

Die MultiSpec-Referenz enthält die Dokumentation für MultiSpec. Mehrere Tutorials (unten aufgeführt) sind ebenfalls verfügbar.

Tutorials zur Verwendung des Menüelements Prozessor->Display Image finden Sie unter:

- Tutorial 2: Bildverbesserungsfunktionen.

Ein Tutorial zur unbeaufsichtigten Klassifizierung finden Sie unter:

- Tutorial 3: Verwendet den Menüpunkt Prozessor->Cluster.

Ein Tutorial zur überwachten Klassifikation finden Sie unter:

- Tutorial 4: Verwendet den Menüpunkt Prozessor->Statistics (und mehrere weitere Menüpunkte).

Andere Tutorials mit hohen Beleuchtungsfunktionen in MultiSpec sind:

- Tutorial 5: Kombinieren separater Bilddateien zu einer einzigen multispektralen Bilddatei.

- Tutorial 6: Formdateien im Bildfenster überlagern.

- Tutorial 7: Auswählen von Bereichen im Bildfenster und in der Koordinatenansicht.

- Tutorial 8: Erstellen von Vegetationsindexbildern.

- Tutorial 9: Umgang mit HDF- und netCDF-formatierten Bilddateien.

- Tutorial 10: Visualisieren von Bildern zum Tag des wachsenden Grades (GDD).

Es wurden Änderungen vorgenommen, damit die Kanalbeschreibungen den Landsat Analysis Ready Data (ARD)-Sets und den Sentinel-Bilddateien zugeordnet werden. Sentenel-Image-Dateien werden als solche erkannt, solange S2A_ und S2B_ irgendwo im vollständigen Pfadnamen enthalten sind.

Es wurde eine Änderung vorgenommen, damit die Histogrammstatistiken für ERDAS Imagine-formatierte Dateien korrekt gelesen werden. Bei einigen Imagine-formatierten Dateien funktionierte es nicht.

Es wurde ein Fix vorgenommen, damit MultiSpec den richtigen Bereich speichert, wenn eine Bildfensterauswahl anstelle des gesamten Bildfensters verwendet wurde.

Es wurde ein Fix vorgenommen, damit MultiSpec beim Speichern von Histogrammen in einer Festplattendatei nicht abstürzte. Abstürze traten bei der MacOS-Version häufiger auf, bei Windows- und Online-Versionen seltener. Änderungen wurden auch an der Formatierung für Histogrammzusammenfassungen vorgenommen.

Die maximale Länge für Kanalbeschreibungen, die in Kanaldialogen und Prozessorausgaben im Textfenster enthalten sind, wurde von 16 auf 24 geändert. Die Standardkanalbeschreibungen für bekannte Sensoren wie z. B. für Landsat und Sentinel enthalten jetzt die Bandkennung als Bn ) vor der Wellenlängeninformation. MultiSpec versucht standardmäßig, die Bänder in eine Wellenlängenreihenfolge zu bringen, die in einigen Fällen nicht der Reihenfolge der Sensorbandidentifikation entspricht.

Version 3.33 (31.03.2020) behebt ein Problem im Menüelement Edit->Map Parameters, das dazu führte, dass von EPSG-Codes angegebene geographische Koordinatensysteme nicht erkannt und/oder korrekt behandelt wurden. Außerdem wurde eine Änderung vorgenommen, um mehr Präzision für horizontale und vertikale Pixelgrößen zu ermöglichen. Dies kann für geographische Koordinatensysteme erforderlich sein.

Version 3.32 (20.02.2020) enthält Änderungen an den Lizenzinformationen in jeder der Dateien, um den Code für MultiSpec Online als Open Source zu erstellen.

cjlin/libsvm für Details zu diesem SVM-Klassifizierer und den verfügbaren Optionen.

Shift-Taste: Hält man die Shift-Taste gedrückt, verwandelt sich der Cursor in ein Auge. Wenn Sie die (linke) Maustaste gedrückt halten, ändert sich die Farbe der Klasse oder Gruppe in die Hintergrundfarbe. Wenn Sie die Maustaste loslassen, ändert sich die Farbe wieder in das Original.

Shift- und Control- oder z- oder /-Tasten: Hält man die Shift- und Control- oder z- oder /-Tasten gedrückt, verwandelt sich der Cursor in ein Auge. Durch Drücken der Maustaste wird die Farbe aller anderen Klassen oder Gruppen auf die Hintergrundfarbe geändert. Wenn Sie die Maustaste loslassen, werden die Farben wieder auf das Original zurückgesetzt. Beachten Sie, dass die Verwendung der Control- oder z- oder /-Tasten browserabhängig ist. Die Steuerungstaste funktioniert in einigen Browsern nicht. Daher werden andere Optionen nicht perfekt bereitgestellt, aber die Fähigkeit funktioniert.

Umschalt- und Wahltaste oder a- oder '-Taste: Wenn man Umschalt- und Wahltaste oder a- oder '-Taste gedrückt hält, verwandelt sich der Cursor in ein Auge. Wenn Sie die Maustaste gedrückt halten, ändern sich die Farben dieser Klasse oder Gruppe und alle mit Klassen-/Gruppennummern kleiner als die ausgewählte in die Hintergrundfarbe. Wenn Sie die Maustaste loslassen, werden die Farben wieder auf das Original zurückgesetzt. Diese Option wurde speziell für Wahrscheinlichkeitsbilder zur Verfügung gestellt, die vom Klassifikationsprozessor erzeugt wurden.


Landklassifizierung und Landnutzung

Nach Abschluss meiner Georeferenzierungsaufgaben (Jahre 1995, 1975 und 1959) wurde mir die Wahl zwischen mehr Georeferenzierung (1965) oder einer etwas anderen Route gegeben, die darin bestand, eine Methode zur Klassifizierung von Landtypen und Land zu erstellen Verwendet. Wenn es nicht anhand des Titels offensichtlich war, wählte ich Georeferenzierung 1965…

Die Landklassifizierung ist die Methode zur Bestimmung eines Merkmals in Bildern rein auf Grundlage des Pixelwerts (der Pixelwert kann je nach Situation unterschiedlich interpretiert werden). Dies ermöglicht eine farbenfrohe Wiedergabe und Trennung, was zu einem leicht lesbaren und visualisierten Kontext führt, in dem sich die verschiedenen Funktionen befinden. Die Ergebnisse können variieren und hängen stark von der Bildqualität ab. Je geringer die Qualität des Bildes oder der Bildsprache, desto mehr Generalisierung und Ungenauigkeit der Klassifizierungen.

Wie auch immer, die Landklassifizierung kann einfach und auch ziemlich schwierig sein. Wenn Sie bereits vorhandene Tools oder Software verwenden, die zum Klassifizieren von Bildern entwickelt wurde, können Sie ganz einfach mit der Landklassifizierung/Landnutzung beginnen. Wenn Sie bereits vorhandenes Material verwenden, müssen Sie schnell die richtige Zahlenkombination finden, um die gewünschte Klassifizierung zu erhalten. Diese Methode ist nicht allzu schwierig, nur mühsamer, um Ihr Ergebnis zu erhalten. Wenn Sie es jedoch von Grund auf angehen, wird es deutlich ansprechender. Um sich ihm von unten nach oben zu nähern, muss man den Prozess im Wesentlichen sezieren. Sie müssen Ihre Bilder analysieren, Pixelwerte extrahieren, die Pixelwerte gruppieren, alle in einer einzigen Datei zusammenfassen und sie schließlich basierend auf der Attribution oder dem Pixelwert, der zuvor aufgezeichnet wurde, symbolisieren. Es ist viel leichter gesagt als getan.

Ich nähere mich der Aufgabe derzeit über bereits erstellte Tools, aber wenn ich die Wahl hätte, wäre ich mit der Bottom-up-Methode angegangen und hätte versucht, sie von Grund auf neu zu erstellen, da darin mehr gelernt wird und es noch viel mehr ist mich anspricht. Unabhängig davon erstelle ich Infodateien oder Dateien, die die Zahlen, Bereiche und Klassifizierungen enthalten, die ich verwende, um gute Landklassifizierungen zu bestimmen. Im Gegensatz zu dem, was ich zuvor gesagt habe, ist dies für mich ziemlich schwierig, da die Bilder von geringer Qualität sind und ich kein Fan davon bin, kontinuierlich in Bereichen zu tippen, bis ich die Nadel einfädele.

Das aktuelle Tool, das ich verwende, ist das Reklassifizierungstool, das über die ESRI-Suite verfügbar ist und die Spatial Analyst-Erweiterung erfordert. Dieses Werkzeug ermöglicht die Eingabe eines einzelnen Bildes, von Bereichen, die Sie zum Klassifizieren des ausgewählten Bildes verwenden möchten, und einer Ausgabedatei. Nach vielen Tests bin ich mir ziemlich sicher, dass es nur maximal 24 Klassifizierungen geben kann (was wahrscheinlich mehr als genug ist). Darüber hinaus kann das Tool stapelweise ausgeführt werden (wie die meisten ESRI-Tools), was bedeutet, dass es auf mehreren Bildern gleichzeitig ausgeführt werden kann. Dies ist eine dringend benötigte Funktion für viele Situationen, da ich in den meisten Fällen annehme, dass Einzelpersonen nicht ein Bild klassifizieren und fertig sind (oder zumindest werde ich nicht eins und fertig sein).

Das ist ein Bild, das mit dem Reklassifizierungstool neu klassifiziert wurde. Ich bin mir nicht sicher, wie gut dies für eine Klassifizierung ist, da ich das Tool noch nicht vollständig verstanden habe und jedes Mal, wenn ich ihm Bereiche angebe, es die gleichen generischen Bereiche ausspuckt, die ich nicht eingegeben habe (was ein bisschen frustrierend ist, aber es kommt mit dem Territorium). Ich bin mir jedoch sicher, dass es sich um menschliches Versagen handelt und nicht um das Durcheinander. Ich bin mir nicht sicher, wie das Endergebnis aussehen soll, aber ich werde Sie auf jeden Fall ausfüllen, sobald ich es erreicht habe (falls ich es jemals tue…).


Analyse der Verteilung einer einzelnen Variablen

Histogramm

Wir beginnen unsere Analyse mit der einfachen Beschreibung der Verteilung einer einzelnen Variablen. Die wohl bekannteste statistische Grafik ist das Histogramm, das eine diskrete Darstellung der Dichtefunktion einer Variablen ist. Im Wesentlichen wird der Bereich der Variablen (die Differenz zwischen Maximum und Minimum) in eine Anzahl gleicher Intervalle (oder Bins) unterteilt, und die Anzahl der Beobachtungen, die in jede Bin fallen, wird in einem Balkendiagramm dargestellt.

Die Histogramm-Funktionalität wird durch Auswahl von > Histogramm erkunden aus dem Menü oder durch Anklicken des Histogramm Symbolleistensymbol, das Symbol ganz links im Satz in Abbildung 2.

Dies bringt die Variable Einstellungen Dialog, der alle numerischen Variablen im Datensatz auflistet (String-Variablen können nicht analysiert werden). Scrollen Sie in der Liste wie in Abbildung 3 nach unten, bis Sie auswählen können Kinder2000, der Prozentsatz der Haushalte mit Kindern unter 18 Jahren im Jahr 2000. Dies ist dieselbe Variable, die wir verwendet haben, um einige der Kartierungsfunktionen zu veranschaulichen.

Abbildung 3: Auswahl der Histogrammvariablen

Nach dem Klicken OK, erscheint das Standardhistogramm, das die Verteilung der 55 Beobachtungen über sieben Klassen zeigt, wie in Abbildung 4. Interessanterweise stellen wir fest, dass die zweite Klasse keine Beobachtungen enthält, was darauf hindeutet, dass ein anderer Satz von Intervallen angemessener sein könnte.

Abbildung 4: Standardhistogramm

Es gibt eine Reihe wichtiger Optionen für das Histogramm. Am wichtigsten ist wohl die Anzahl der Bins oder alternativ die Werte für die Schnittpunkte.

Die in Abbildung 5 gezeigten Histogramm-Optionen werden auf die übliche Weise durch Klicken mit der rechten Maustaste auf das Diagramm aufgerufen.

Abbildung 5: Option Intervall-Histogramm auswählen

Auswahl der Anzahl der Histogramm-Bins

Das Wählen Sie Intervalle Die in Abbildung 5 gezeigte Option ermöglicht die Anpassung der Anzahl der Bins im Histogramm. Es erscheint ein Dialog, in dem Sie diesen Wert explizit festlegen können. Der Standardwert ist 7, aber in unserem Beispiel ändern wir dies in 5, wie in Abbildung 6.

Abbildung 6: Histogrammintervalle auf 5 . eingestellt

Das resultierende Histogramm hat jetzt fünf Balken, wie in Abbildung 7.

Abbildung 7: Histogramm mit 5 Intervallen

Damit wird das Problem des Bins mit fehlenden Beobachtungen behoben.

Verwenden einer benutzerdefinierten Klassifizierung

Erinnern Sie sich daran, wie wir eine benutzerdefinierte Kartenklassifizierung basierend auf dem Wertebereich für . erstellt haben Kinder2000, und beschriftet es benutzerdefinierte1. Wenn Sie die Projektdatei mit den NYC-Daten geladen haben, wird diese benutzerdefinierte Klassifizierung als Option für . aufgeführt Histogramm-Klassifizierung, wie in Abbildung 8 gezeigt. Wenn Sie bei Null angefangen haben, müssen Sie die benutzerdefinierte Klassifizierung neu erstellen (Details finden Sie im Kapitel Mapping).

Abbildung 8: Auswählen einer benutzerdefinierten Histogrammklassifizierung

Die benutzerdefinierte Klassifizierung ermöglicht es GeoDa, Schnittpunkte anstelle der Anzahl von Fächern anzugeben. Mit benutzerdefinierte1 ausgewählt, nimmt das Histogramm die Form wie in Abbildung 9 an, mit sechs Bins, wie durch diese Klassifizierung definiert. Das Histogramm hat genau die gleiche Form wie das im Kategorie-Editor Benutzeroberfläche beim Erstellen dieser benutzerdefinierten Kategorien.

Abbildung 9: Histogramm mit benutzerdefinierten Intervallen

Histogramme für kategoriale Variablen

Die Standardlogik hinter dem Histogramm besteht darin, den Bereich der interessierenden Variablen (max - min) zu berücksichtigen und die Schnittpunkte basierend auf der angegebenen Anzahl von Bins zu berechnen. Bei kategorialen Variablen führt dies zu unerwünschten Ergebnissen.

Um dies zu veranschaulichen, erstellen wir eine Karte für Kinder2000 mit dem benutzerdefinierte1 Kategorien und Verwendung Kategorien speichern eine kategoriale Variable erstellen (sagen wir Katzenkind20) für diese Klassifizierung. 2 Das Standardhistogramm für diese Variable ist wie in Abbildung 10 und spiegelt eindeutig nicht die diskreten ganzzahligen Werte wider, die den Kategorien zugeordnet sind. Stattdessen basieren die Schnittpunkte auf dem Bereich von 5, geteilt durch die Standardanzahl von Bins von 7 oder einer Bin-Breite von ungefähr 0,7. Tatsächlich geht der erste Bin von 1 bis 1.7.

Abbildung 10: Standardhistogramm für kategoriale Variablen

Das Aussicht Option des Histogramms bietet eine Möglichkeit, mit kategorialen Variablen mit Hilfe der Als eindeutigen Wert festlegen Element, gezeigt in Abbildung 11. Diese Option erkennt die diskrete Natur der kategorialen Variablen und passt den Schnittpunkt entsprechend an.

Abbildung 11: Auswahl einer eindeutigen Werthistogrammklassifizierung

Das Ergebnis ist in Abbildung 12 dargestellt, wobei sechs Kategorien jeweils einem identifizierenden ganzzahligen Wert zugeordnet sind.

Abbildung 12: Eindeutiges Werthistogramm für kategoriale Variablen

Histogrammstatistik anzeigen

Eine wichtige Option für das Histogramm (und jedes andere statistische Diagramm) besteht darin, deskriptive Statistiken für die interessierende Variable anzeigen zu können. Dies geschieht durch Auswahl von Statistik anzeigen in dem Aussicht Option für das Histogramm (siehe Abbildung 11)

Diese Option fügt unter dem Diagramm eine Reihe von Deskriptoren hinzu. Die zusammenfassenden Statistiken sind unten angegeben, dargestellt in Abbildung 13 für Kinder2000 mit benutzerdefinierten Kategorien. Wir sehen, dass die 55 Beobachtungen einen Minimalwert von 8,3815, einen Maximalwert von 55,3666, einen Median von 38,2278, einen Mittelwert von 36,04 und eine Standardabweichung von 11,2881 haben. Darüber hinaus werden für das Histogramm deskriptive Statistiken für jedes Intervall bereitgestellt, die den Bereich für das Intervall, die Anzahl der Beobachtungen als Anzahl und als Prozentsatz der Gesamtzahl der Beobachtungen sowie die Anzahl der Standardabweichungen vom Mittelwert anzeigen showing für die Mitte des Behälters. Dies ermöglicht es uns, potenzielle Ausreißer zu identifizieren, z. B. wie durch diese Beobachtungen definiert, die mehr als zwei Standardabweichungen vom Mittelwert aufweisen. In unserem Beispiel erfüllt keine Kategorie dieses Kriterium.

Die Zusammenfassungsmerkmale für einen bestimmten Behälter werden auch in der Statusleiste angezeigt, wenn der Cursor über die entsprechende Leiste bewegt wird. Dies funktioniert unabhängig davon, ob die Option für die beschreibende Statistik aktiviert ist oder nicht. In unserem Beispiel in Abbildung 13 befindet sich der Cursor über der vierten Kategorie.

Abbildung 13: Histogramm mit deskriptiver Statistik

Andere Histogrammoptionen

Weitere Artikel erhältlich im Aussicht Option umfasst die Anpassung der Genauigkeit der Achsen und der angezeigten Statistiken bzw. durch Anzeigen > Anzeigepräzision für Achsen einstellen und Anzeigen > Anzeigepräzision einstellen.

Darüber hinaus umfassen die Standardoptionen für das Histogramm Anpassungen an verschiedenen Farbeinstellungen (Farbe), Speichern der Auswahl (ähnlich wie bei der Kartenfunktionalität), Kopieren Sie das Bild in die Zwischenablage und Speichern des Diagramms als Bilddatei (wiederum identisch mit der Kartenfunktionalität).

Verknüpfen eines Histogramms und einer Karte

Um das Konzept von zu veranschaulichen verlinkt Grafiken und Karten, fahren wir mit dem benutzerdefinierten Histogramm fort und stellen sicher, dass die standardmäßige themenlose Karte verfügbar ist. Wenn wir die beiden am weitesten rechts liegenden Balken im Histogramm auswählen (klicken und Umschalt-Klicken, um die Auswahl zu erweitern), behalten die hervorgehobenen Balken ihre Farbe, während die nicht ausgewählten transparent werden, wie im rechten Diagramm in Abbildung 14 Dies ist die Standardmethode, um eine Auswahl in einem Diagramm in GeoDa zu visualisieren. 3

Immediately upon selection of the bars in the graph, the corresponding observations in the map are also highlighted, as in the left-hand graph in Figure 14. In our current example, the map is a simple themeless map (all areal units are green), but in more realistic applications, the map can be any type of choropleth map, for the same variable or for a different variable. The latter can be very useful in the exploration of categorical overlap between variables.

Figure 14: Linking a histogram and a map

The reverse linking works as well. For example, using a rectangular selection tool on the themeless map, we can select sub-boroughs in Manhattan and adjoining Brooklyn, as in the map in Figure 15. The linked histogram (right-hand graph in Figure 15) will show the attribute distribution for the selected spatial units as highlighted fractions of the bars (the transparent bars correspond to the unselected areal units).

In practice, we will be interested in assessing the extent to which the distribution of the selected observations (e.g., a sub-region) matches the overall distribution. When it does not, this may reveal the presence of spatial heterogeneity, to which we return below.

Figure 15: Linking a map and a histogram

As we have seen before, it is also possible to save the selection in the form of a 0-1 indicator variable with the Save Selection option.

The technique of linking, and its dynamic counterpart of brushing (more later) is central to the data exploration philosophy that is behind GeoDa (for a more elaborate exposition of the philosophy behind GeoDa , see Anselin, Syabri, and Kho 2006) .

Box Plot

A box plot is an alternative visualization of the distribution of a single variable. It is invoked as Explore > Box Plot, or by selecting the Box Plot as the second icon from the left in the toolbar, shown in Figure 2.

Identical to the approach followed for the histogram, next appears a Variable Settings dialog to select the variable. In GeoDa , the default is that the variable from any previous analysis is already selected. In our example, we change this to the variable rent2008, which we already encountered in the illustration of the box map in the mapping Chapter.

The box plot for rent2008 is shown in Figure 16 (make sure to turn off any previous selection of observations).

Figure 16: Default box plot

The box plot focuses on the quartiles of the distribution. The data points are sorted from small to large. The median (50 percent point) is represented by the horizontal orange bar in the middle of the distribution. The green dot above corresponds with the mean.

The brown rectangle goes from the first quartile (25th percentile) to the third quartile (75th percentile). The difference between the values that correspond to the third (1362.5) and the first quartile (1000) is referred to as the inter-quartile range (IQR). The inter-quartile range is a measure of the spread of the distribution, a non-parametric counterpart to the standard deviation. In our example, the IQR is 362.5 (1362.5 - 1000).

The horizontal lines drawn at the top and bottom of the graph are the so-called fences oder hinges. They correspond to the values of the first quartile less 1.5xIQR (i.e., roughly 1000 - 362.5x1.5 = 275), and the third quartile plus 1.5xIQR (i.e., roughly 1362.5 + 362.5x1.5 = 2087.5). Observations that fall outside the fences are considered to be outliers. 4

In our example in Figure 16, we have a single lower outlier value (corresponding to three observations), and six upper outlier observations. Note that the lower outliers are the observations that correspond with a value of 0 (the minimum), which we earlier had flagged as potentially suspicious. The outlier detection would seem to confirm this. Checking for strange values that may possibly be coding errors or suggest other measurement problems is one of the very useful applications of a box plot.

Box plot options

The default in GeoDa is to list the summary statistics at the bottom of the box plot. As was the case for the histogram, the statistics include the minimum, maximum, mean, median and standard deviation. In addition, the values for the first and third quartile and the resulting IQR are given as well. The listing of descriptive statistics can be turned off by unchecking View > Display Statistics (i.e., the default is the reverse of what held for the histogram, where the statistics had to be invoked explicitly).

The typical multiplier for the IQR to determine outliers is 1.5 (roughly equivalent to the practice of using two standard deviations in a parametric setting). However, a value of 3.0 is fairly common as well, which considers only truly extreme observations as outliers. The multiplier to determine the fence can be changed with the Hinge > 3.0 option (right click in the plot to select the options menu, and then choose the hinge value, as in Figure 17).

Figure 17: Change the box plot hinge

The resulting box plot, shown in Figure 18, no longer characterizes the lowest value as an outlier.

Figure 18: Box plot with hinge = 3.0

The other options for the box plot can be seen in Figure 17. Except for the Hinge option, these are the same as for the histogram, and are not further considered here.

Also, as is the case for any graph in GeoDa , linking and brushing are implemented, as already illustrated in the mapping Chapter.

The main purpose of the box plot in an exploratory strategy is to identify outlier observations. We have already seen how that is implemented in the idea of a box map to show whether such outliers also coincide in space. In later Chapters, we will cover more formal methods to assess such patterns.


6. Conclusions

This study was designed as a demonstration project to quantify the spatial and temporal characteristics of supercells across Oklahoma over a 10-yr period. A criteria-based approach was applied to the identification and classification of storm types using level-II and level-III radar data. Furthermore, GIS was utilized in a new and innovative way to organize, visualize, and analyze the spatial aspects of storms across various time scales. This methodology resulted in the identification of 943 supercells across Oklahoma during 1994–2003. While the observation of nearly 1000 supercells during a decade is quite significant, the sample size is too small to represent long-term spatial and temporal characteristics of supercell thunderstorms across Oklahoma.

A number of key findings resulted from the spatiotemporal analysis of supercells across Oklahoma during the limited 10-yr demonstration study period. Key results included the following:

  • The location of the maxima of supercell occurrences was identified across three main regions: east-central Oklahoma, southwest Oklahoma, and west-central into northeast Oklahoma.
  • The mean supercell initiation location moved west between January and September and moved east from September through the end of the calendar year.
  • Initiation was most frequent between 2000 and 0000 UTC.
  • Termination was most common between 2300 and 0300 UTC.
  • Supercell initiation density was the greatest across portions of southwest, north-central, and east-central Oklahoma.
  • Supercell termination density was most common across northern and northeastern Oklahoma.
  • The month of May was composed of three important climatological features: a supercell outbreak peak in early May, a midmonth relative minimum of activity, and a peak in supercell days at the end of May.
  • The secondary supercell season was identified during late September to early October.
  • The monthly mean supercell tracks were oriented from southwest to northeast from January through May, from northwest to southeast from June through September, and from southwest to northeast through the end of the year.

Storm report data were analyzed using several spatial density tools and revealed that the distribution of point reports (wind, hail, and tornadoes) was approximately correlated with population centers. The density of tornado tracks did not exhibit the same population bias however, only north-central Oklahoma was strongly correlated with supercell locations for the same period. Overall, the GIS-based supercell dataset was found to be a valuable, new form of storm archive that enabled the efficient query of past storms, powerful spatial analyses, and multiple data overlay. The combined use of radar storm classification and GIS as a database creation and analysis tool proved highly effective in quantifying the spatial characteristics of past supercells across Oklahoma during a 10-yr period. If applied on a larger scale, utilizing a set of more automated methods such as storm algorithm identification combined with quality assurance measures, similar detailed analyses could be extended to larger regions of the United States over longer periods of time.

It is the authors’ recommendation that a national center be given the task of creating an automated framework for developing GIS datasets consisting of critical storm information gathered in a real-time, quality-assured manner. While Storm Data will continue to serve as a useful storm reporting and National Weather Service verification tool, new approaches are needed to more effectively document and research storm occurrences. For example, with the availability of extensive WSR-88D coverage across the country, the potential exists for more effective use and storage of important radar-derived storm features such as hail detections, mesocyclone detections, or storm cell identification and tracking information. The storage of such data into GIS datasets would enable effective data mining of past storm days, facilitate incorporation with other datasets, and ultimately foster further meteorological research and data discovery. The resultant storm datasets would provide beneficial information to a range of sectors, including forecast operations, synoptic and mesoscale research, and economic interests. With continued increases in GIS-compatible meteorological datasets, such as the ones proposed herein, it appears likely that GIS will serve as an important tool for archiving, visualizing, and analyzing a vast array of meteorological data in the future.


Statistics of Multiple Attributes

A data set often has multiple attributes that may or may not depend on each other.

Dependence and Independence

Quite often two sets of data may be related to each other, at the very least because their values are measured at the same time or location, or both. For example, a weather station might make hourly measurements of temperature, humidity, wind speed, etc.

Census data is another common example, such as the layer MASSCENSUS2010BLOCKGROUPS.shp , whose attribute table includes information not only about total population but also the white population, black population, hispanic population, housing units, etc. in particular locations in a particular year:

Beyond the basic connection they have due to their location-based collection, these different sets of data might have other relationships, e.g. there can be simple constraints of definition such as:

POP_2010 = POP_WHITE + POP_BLACK + POP_NATV + POP_ASN + POP_ISLND + POP_OTHER + POP_MULTI

See the U.S. Census Bureau's document “About Race” to learn how they define these categories.

The Census Bureau also allows for the possiblity that a person of Hispanic or Latinx ethnicity could be in any one of these categories. See the U.S. Census Bureau Guidance on the Presentation and Comparison of Race and Hispanic Origin Data for more information.

Importantly, there can also be more complicated relationships resulting from societal factors. For example, the ratio of blacks to whites is not uniform but tends to be inversely related as whites and blacks cluster together in different locations.

The relationship between different attributes can be visualized, to some extent, by plotting each pair within a record on a two-dimension graph of their values, which is known as a .

Procedure 5: Visualizing Attribute Relationships with Scatterplots

  1. In ArcMap , menu View , then select the menu item Graphs , and then select the menu item Create Scatterplot Matrix… .
  2. In the dialog Create Scatterplot Matrix Wizard , in the menu Layer/Table , select the layer or table of interest, e.g. MASSCENSUS2010BLOCKGROUPS.shp .

  1. Show all features/records with selected items highlighted (the default)
  2. Show all features/records with selected items appearing the same as others
  3. Show only selected records.

Scatterplots often reveal several types of relationships between attributes:

    A linear relationship, clearly visible in the the POP_OTHER vs. HISPanic graph expanded above:

Recall that &alpha (the Greek letter “alpha”) is the and &beta (the Greek letter “beta”) is the of the line.

In other words, where there are more whites there are fewer blacks, and where there are fewer whites, there are more blacks.

Inverse relationships can often be approximated by linear relationships with negative slopes.

Some pairs of attributes may have no obvious relationship, such as POP_OTHER vs. POP_MULTI, perhaps indicating an overlap in meaning or a more complicated relationship involving other attributes. Relationships between z-scores can sometimes be clearer, because these values are mostly smaller than 1 (mathematically speaking, nonlinear terms will be less important).

When an attribute remains constant relative to another attribute, or if they have a purely random relationship, we can say that they are of each other if, on the other hand, the attribute has a clear mathematical relationship to another attribute, we can say they are on each other.

Somewhat confusingly, when expressed as a mathematical relationship such as the above, the attribute on the left of the equal sign is called the or the , and the attribute in the expression on the right is called the , which implies an asymmetric relationship that requires qualification or justification.

An important aphorism to remember when considering dependent relationships is that correlation does not imply causation, i.e. two attributes may be dependent upon each other not because one causes the other, but because they both arise from a third attribute. For example, black households are more likely to have lower incomes than white households, not because being black causes lower incomes but because of their historical origins and ongoing discrimination.

Correlation

The degree to which the two sets of data have a linear relationship can be described by calculating their , defined by Pearson as

This expression multiplies two attributes’ z-scores feature-by-feature, sums the result, and divides by the total number N (replaced by N̂ &minus 1 for sample data sets).

The correlation of two attributes will vary between &minus1 and +1, with the latter occurring if all pairs of values < ai , bi > are exactly the same (because the sum is then the same as that of the standard deviation squared), and the former when the values differ only by a minus sign.

If two attributes are independent of each other, the correlation will be close to zero. This is obviously true when one of the attributes is constant, since that value will equal its mean and its z-score will always be zero. More generally, since z-scores are distributed around zero, there will be roughly the same number of positive and negative terms, which will tend to cancel each other out.

In ArcGIS, you can calculate the correlation of two attributes by calculating their z-scores, then calculating a third attribute that is the product of their z-scores, then summarizing the latter to find its mean value. (You can also calculate a linear regression see the next section.) Excel provides a function CORREL which is somewhat easier to use to calculate correlations.

For the Massachusetts data above, we can create a with the same form as the scatterplot matrix:

POP_WHITE 0.88
POP_BLACK 0.13 -0.27
POP_NATV 0.16 -0.02 0.24
POP_ASN 0.33 0.10 0.10 0.00
POP_ISLND 0.13 0.03 0.12 0.15 0.06
POP_OTHER 0.14 -0.21 0.40 0.46 0.03 0.20
POP_MULTI 0.42 0.04 0.52 0.41 0.27 0.24 0.70
HISP 0.17 -0.16 0.38 0.48 0.05 0.20 0.95 0.67
POP_2010 POP_WHITE POP_BLACK POP_NATV POP_ASN POP_ISLND POP_OTHER POP_MULTI

The color codes indicate the strength and sign of the correlation (similar to the standardized map above). From this we see that the POP_OTHER and HISP attributes have the strongest correlation at 0.95, while for POP_WHITE and POP_BLACK there is a weak negative correlation of &minus0.27, both matching our visual characterization.

Question: The second strongest correlation is between the white and total populations at 0.88 why do you think that would be?

Linear Regression

An attribute such as the Hispanic population can be characterized by its mean value and standard deviation, but consider the graph at the right, which plots HISP on the y axis vs. POP_OTHER on the x axis.

The mean value of HISP, &mu = 126 (the solid green line), is also plotted, along with the confidence interval 3 &sigma = 636 (the dashed green line).

Clearly a significant fraction of the HISP data is quite far from the mean and even outside of the 3 &sigma confidence interval — but it’s much closer to the blue line, which varies with POP_OTHER.

If we want to model the relationship between , the simplest type of relationship between two attributes A and B is a linear one, viz.

The &alpha and &beta are called the and , respectively. Note that if the slope &beta is zero, then A will be represented by the constant value &alpha , which we might expect to be the mean &mu .

In general there will be a dispersion of data that prevents a perfect representation by such a line, as in the graph at the right.

The difference between a dependent value and the corresponding calculated value of a representational line is known as a :

(&epsilon is the Greek letter “epsilon”).

We’d like to calculate values for the coefficients &alpha and &beta , a process known as . The most common procedure, , is based on the idea that the line that fits the data best is the one that minimizes the :

squaring the residuals puts values above and below the regression line on an even footing. Also note that, if the slope &beta is zero, the sum is the same as that in the expression for &sigmaa , since the mean &mu is the value of &alpha that minimizes the sum.

Question: Where have you seen a least-squares fit previously? (Hint: the residuals were represented by blue lines between two geographic locations.)

is also possible when there is more than one explanatory variable:

In this case, with n coefficients and n – 1 different explanatory variables, it’s helpful to express the latter as z-scores in order to compare their relative importance to the dependent variable. Then the slopes < &beta k > will represent the effect of a one-standard-deviation change in the corresponding variables.

The derived expressions for the intercept &alpha and slopes < &beta k > are unenlightening and won’t be listed here. But they can be calculated with a number of tools, including Excel and ArcGIS (see below).

As an example, consider the relationship discussed earlier,

which was notable because these two attributes appear to be strongly correlated. It has least-squares intercept and slope of

resulting in the equation

HISP = 16.5 + 1.788 × POP_OTHER

and the solid blue regression line that is plotted in the graph above.

Question: How might you interpret a slope of 1.788 in this case?

Goodness of Fit

How well a linear regression equation fits the data is an important consideration, and a number of statistical measures have been devised to test its .

The describes the distribution of the dependent values around the best-fit line, and is similar to the standard deviation around the mean value:

Again the &epsiloni are the residuals of the dependent values, and smaller values represents a smaller spread from the regression line, as seen in the graph to the right.

As before N is the number of data points, so if more of them fit within a given spread of residuals, that will reduce the standard error.

Finally, n is the number of coefficients the more of them there are the greater the standard error, because they add to the equation and make it easier to fit more precisely, even though the data hasn’t changed. It is therefore subtracted from the total number of data points N , which decreases the denominator and increases the standard error.

Remember “ n equations for n unknowns”? That means that one data point is required for each coefficient to determine them exactly, and the remaining N – n data points are responsible for the variation around the line (the residuals).

The standard error of the HISP(POP_OTHER) regression is

Note that in the above graph, almost all of the data lies close to the regression line, falling within the confidence interval ±3 &Sigma = ±201, denoted by the dashed blue lines. This is much better than simply describing the dependent variable by its mean value, since ±3 &sigmaa = ±636. This model therefore accounts for a large fraction of the variation in the HISP data, leaving a much smaller set of residuals that must be accounted for by other factors. We can say that we have the variation between the model and the remaining residuals.

The is a convenient and accepted way to compare the standard error of the equation &Sigma and the dependent variable’s standard deviation &sigmaa , and thereby describe the overall goodness-of-fit of the equation:

If the regression line perfectly fits the data, the residuals &epsilon i will all be zero and R 2 will be one when the residuals approach the standard deviation of the dependent variable, the second term will be one and R 2 will be zero.

One way to interpret the coefficient of determination is as a generalization of correlation to a set of explanatory variables. It can be shown that, when there is only one explanatory variable, R 2 will equal the square of the correlation &rho with the dependent variable. For the HISP(POP_OTHER) regression,

which matches the correlation calculated above, since 0.95 2 = 0.90. So R 2 .

Because the coefficient of determination can improve simply by adding more explanatory variables, i.e. by increasing n , a related quantity that provides a better estimate of significance is the :

R̅ 2 will always be less than or equal to R 2 , and it can be negative, unlike R 2 . The significance of your equation will be greatest when R̅ 2 is maximized.

For the example regression,

since N (4979) is much larger than n (2).

The is another common way to analyze the dependence of your model on the number of explanatory variables you’ve chosen. It compares the “explained” variance R 2 that follows from these n – 1 variables to the “unexplained” variance 1 – R 2 remaining in the N – n unfitted data points:

F can be as small as 0, when the numerator R 2 /( n – 1) is 0: none of the variance in the dependent variable is explained.

F can be as large as ∞, when the denominator (1 – R 2 )/( N – n ) is 0: all of the variance in the dependent variable is explained.

So the regression is better when F >> 1 for the HISP(POP_OTHER) regression, F = 45,000.

But could a different set of coefficient values be substituted and produce a better result? When coefficient values are selected with random probability and their F values are calculated, an results, such as the graph of ∂F p versus F shown at the right clearly some F values are more likely than others.

Generally speaking values of F >> 1 have a low probability per unit value ∂F p , and the total probability p that random coefficient values will have F > F Regression is very small, as suggested by the red portion of the F distribution graph.

Is there a significant probability p that random coefficient values could produce better results than the regression best-fit? This question is an example of a .

A is a value of p below which you may decide to reject the null hypothesis, i.e. decide that F Regression is significant. Commonly these are stated in the form p < 0.1 or p < 0.05. The former represents a less-than-1-in-10 chance and the latter a less-than-1-in-20 chance that a random result will produce a better F .

For the HISP(POP_OTHER) regression, p ≈ 0, so F Regression is clearly significant and we can reject the null hypothesis.

Standard Errors of the Coefficients

Once the overall goodness-of-fit has been established, the individual coefficients should come under scrutiny.

Because the best-fit regression line is only one of many that could pass through the data, the coefficients also clearly have a range of values, e.g. tilting the line upward for a larger slope or downward for a smaller slope. These values therefore have their own distributions whose widths are described by , which for the HISP(POP_OTHER) regression are:

You will commonly see coefficient errors expressed together with the coefficients in the form &beta ± s &beta , e.g.

HISP = (16.5 ± 1.1) + (1.788 ± 0.008) × POP_OTHER

Note that this is an expression of just one possible confidence interval to claim more certainty, a multiple of this value is generally necessary.

In addition, we can set up another null hypothesis: can these values be left out of the model with little effect, i.e. are they significantly different than zero? A simple test for their significance is based on the :

Like the F-statistic, we can test these values with the , which, like the F distribution, charts the probability that a random set of values could produce the observed coefficient.

When these values are greater than two, i.e. the coefficients ± the standard errors are significantly different than zero, the values are considered good estimates. More precisely, suppose the data was completely random, e.g. HISP showed no dependence on POP_OTHER then we would expect the coefficients to be all zero and &alpha = &mu .

The coefficient of determination for the dependence of the HISP attribute on the POP_OTHER attribute is good, but looking at the scatterplot matrix there appears to be correlation not just with POP_OTHER but also with POP_MULTI and, to a lesser extent, with POP_BLACK and POP_NATV. In general, we also know that Spanish-speaking people can be of any racial background. We may therefore be able to produce a better fit by including them in the analysis with a multiple linear regression.

Procedure 6: Multiple Linear Regression

ArcGIS provides a tool for calculating the ordinary least squares fit to a multiple linear regression of an attribute dependent on multiple other attributes, providing detailed statistical characteristics of a fit described by the equation

This includes the coefficient of determination R 2 , meaning that it can also be used to calculate the correlation between any pair of attributes, too.

  1. The Ordinary Least Squares tool requires that the input feature class have an integer attribute with unique values for every feature if your layer doesn’t already have one, open its attribute table and add a new field, e.g. UniqueID , and use the field calculator as described above to copy the attribute FID (which unfortunately doesn’t work for this purpose).
  2. In ArcMap , open ArcToolbox (see Constructing and Sharing Maps for details).
  3. Double-click on Spatial Statistics Tools , then on Modeling Spatial Relationships , and finally on Ordinary Least Squares .
  4. In the dialog Ordinary Least Squares , in the menu Input Feature Class , select the data layer to be symbolized, e.g. MASSCENSUS2010BLOCKGROUPS . If the layer is not already added to ArcGIS, you can click instead on the button Browse to select one.
  5. In the menu Unique ID Field , choose an integer field with unique values, e.g UniqueID .
  6. In the text field Output Feature Class , choose a location and name for the output layer file, e.g. Geostatistics.gdbHISP_OLS , by typing it or by clicking on the button Browse to select it. You will probably want to put it in the same location as the data layer it’s modeling.
  7. In the menu Dependent Variable , choose the attribute you would like to explain, e.g HISP .
  8. In the menu Explanatory Variables , click auf the attribute(s) that you think will explain the dependent variable, e.g POP_OTHER_Z .
  9. In the text field Output Report File , choose a location and name for an output report in PDF format, e.g. HISP_OLS_Report.pdf , by typing it or by clicking on the button Browse to select it. You will probably want to put it in the same location as the data layer it’s modeling.
  10. Optionally, you can request a Coefficient Output Table and a Diagnostic Output Table these have almost the same information as in the PDF report, but in a table format that can and will be loaded into ArcGIS. One statistic the former provides that isn’t in the PDF report is the standard error of the equation S .
  11. Click on the button OK .
  12. If you have turned off background processing (see Constructing and Sharing Maps for details), the dialog Ordinary Least Squares will appear, describing the process, and eventually displaying the Completed results (you may need to enlarge the window and scroll up to see everything):

Quite a few statistical characteristics are included here, including the ones we have already described. In particular, this model of the hispanic population

Again, if there are a large number of polygons you may want to turn off the polygon outlines as described in step 12 of Procedure 2.

Excel provides a function LINEST that can also be used to calculate regression coefficients and standard errors, but it’s a bit cumbersome to use.