Mehr

Wie können wir die Werte der Intervalle in der Legende in R . abrufen?


Ich habe ein Höhenmodell in R-Code geplottet:

Bibliothek(Raster) Daten(Vulkan) r <- Raster(Vulkan) Plot(r, Spalte = topo.colors(20))

Handlung:

wie können wir die Werte der Intervalle in der Legende abrufen, dh im Beispiel -->100,120,140,160,180


Die Legende ist eine Zusammenfassung der Rasterwerte. Daher müssen Sie die entsprechenden Rasterwerte extrahieren. Dies sollte es tun:

Bibliothek(Raster) Daten(Vulkan) r = Raster(Vulkan) min = minWert(r) max = maxWert(r) l = c(min:max) Ergebnis = l[l %% 20 == 0] > Ergebnis [1 ] 100 120 140 160 180

Spplot : Plotmethoden für räumliche Daten mit Attributen

Seitenverhältnis für räumliche Achsen ist standardmäßig auf "iso" eingestellt (eine Einheit auf der x-Achse entspricht einer Einheit auf der y-Achse), kann aber auf geeignetere Werte eingestellt werden, wenn die Daten z.B. wenn die Koordinaten Breitengrad/Längengrad sind

je nach Klasse von obj wird panel.polygonsplot (für Polygone oder Linien), panel.gridplot (grids) oder panel.pointsplot (points) zur weiteren Steuerung verwendet Lesen Sie unten, wie das Argument sp.layout helfen kann

NULL oder Liste siehe Hinweise unten

wenn nicht FALSE, identifiziere gezeichnete Objekte (funktioniert derzeit nur für Punktdiagramme). Labels zur Identifizierung sind die row.names der Attributtabelle row.names(as.data.frame(obj)) . Wenn TRUE, auf Panel (1,1) identifizieren, um auf Panel i,j zu identifizieren, übergeben Sie den Wert c(i,j)

optional kann nützlich sein, um einen transformierten Wert darzustellen. Standardmäßig z

x+y|name für mehrere Attribute verwenden Sie z.B. exp(x)

x+y|name um den Exponenten der z-Variablen darzustellen

wenn FALSE, Symbolschlüssel verwenden, wenn WAHR, kontinuierlicher, levelplot-ähnlicher Farbschlüssel verwenden, wenn Liste, Syntax des Arguments Farbschlüssel in Levelplot befolgen (siehe unten für ein Beispiel)

grobe Platzierungsbegründung

logisch wenn TRUE, wird trellis.par.set aufgerufen, ansonsten wird eine Liste zurückgegeben, die an trellis.par.set() übergeben werden kann

Höhe der Skalenleistenbreite beträgt 1,0

logisch bei TRUE wird geprüft, ob leere Zeilen oder Spalten vorhanden sind und behandelt werden müssen. Die Einstellung auf FALSE kann die Geschwindigkeit verbessern.

Vektor mit Füllfarben Falls die darzustellende Variable ein Faktor ist, sollte dieser Vektor eine Länge haben, die der Anzahl der Faktorstufen entspricht

Vektor mit Farbwerten, Standard für col.regions


Automatische Skalierung

Alle Grafiken und Diagramme, mit Ausnahme der 3D-Grafiken, aktivieren automatisch die automatische Skalierung, d. h. sie passen ihre horizontalen und vertikalen Skalierungen an die Daten an, die Sie mit ihnen verbinden. Standardmäßig ist die automatische Skalierung für Grafiken und Diagramme aktiviert. Die automatische Skalierung kann jedoch die Leistung beeinträchtigen. Klicken Sie mit der rechten Maustaste auf die Grafik oder das Diagramm und wählen Sie X-Skala»AutoScale X oder Y-Skala»AutoScale Y aus dem Kontextmenü, um die automatische Skalierung ein- oder auszuschalten.

Hinweis Wählen Sie für Kompass-Plot, Fehlerbalken-Plot, Feder-Plot und XY-Plot-Matrix Autoskalierung X oder Autoskalierung Y aus dem Kontextmenü.

Verwenden Sie das Bedienwerkzeug oder das Beschriftungswerkzeug, um den horizontalen oder vertikalen Maßstab direkt zu ändern.

Hinweis LabVIEW schließt ausgeblendete Diagramme nicht ein, wenn Sie die Achsen eines Graphen oder Diagramms automatisch skalieren. Wenn Sie die ausgeblendeten Plots bei der automatischen Skalierung einbeziehen möchten, machen Sie die ausgeblendeten Plots stattdessen transparent. Klicken Sie mit der rechten Maustaste auf das Plotbild in der Plotlegende und wählen Sie Farbe aus dem Kontextmenü, um die Farbe der Diagramme zu ändern.

Wenn die Größe eines Diagramms oder Diagramms geändert wird, werden andere Elemente des Diagramms oder Diagramms verschoben und skaliert. Um dieses Verhalten zu deaktivieren, damit die Größe des Plotbereichs unverändert bleibt, klicken Sie mit der rechten Maustaste auf das Diagramm oder Diagramm und wählen Sie Erweitert»Skalen automatisch anpassen aus dem Kontextmenü. Wenn Sie dieses Verhalten deaktivieren, können sich die Skalen überschneiden oder überlappen.

Hinweis Das Skalen automatisch anpassen Option gilt nicht für Kompass-Plot, Fehlerbalken-Plot, Feder-Plot, XY-Plot-Matrix oder die 3D-Graphen.


3.2 Konstruktion einer gewöhnlichen Sterbetafel

Die Kenntnis der gewöhnlichen Sterbetafelkonstruktion ist für die Konstruktion einer mehrfach dekrementierten Sterbetafel unerlässlich. Es gibt eine Reihe von Methoden, um eine normale Sterbetafel mit Daten zu altersspezifischen Sterberaten zu erstellen. Die gebräuchlichsten Methoden sind die von Reed Merrell, Greville, Keyfitz, Frauenthal und Chiang (für eine Diskussion dieser Methoden siehe Namboodiri und Suchindran, 1987).

In diesem Abschnitt erstellen wir eine gewöhnliche Sterbetafel mit Daten zu altersspezifischen Sterberaten basierend auf einer einfachen Methode, die von Fergany (1971) vorgeschlagen wurde. Demographie 8 (3):331-334). Bei dieser Methode wird die altersspezifische Sterberate ( neinichx ) wird in den Anteil der Sterbenden im Altersintervall ( neinqx ) mit einer einfachen Formel:

Formel 1)

wobei e das Symbol für die Basiszahl eines natürlichen Logarithmus ist (eine Konstante gleich 2,71828182. ) und n die Länge des Altersintervalls ist. ( Hinweis: Verwechseln Sie hier nicht das Symbol e mit dem ex 0 in der Notation "erwartetes Leben" verwendet.)

Einmal neinqx wird mit altersspezifischen Sterberaten berechnet, die restlichen Spalten der Sterbetafel lassen sich einfach über die folgenden Beziehungen berechnen:

(Wie in Tabelle 3.1.2 Spalte 3 mit Spalte 2 multiplizieren.)
(Ziehen Sie wie in Tabelle 3.1.2 Spalte 4 von Spalte 3 ab.)
(Spalte 4 in Tabelle 3.1.2 teilen durch die entsprechende altersspezifische Sterberate.
Hinweis: In Tabelle 3.1.2 wurde nicht die Fergany-Methode verwendet.)
(Ermitteln Sie die kumulativen Summen von Spalte 5 in Tabelle 3.1.2.)
(In Tabelle 3.1.2 teilen Sie Spalte 6 durch Spalte 3.)

Beispiel Umrechnung der altersspezifischen Sterberate in den Sterbeanteil im Altersintervall

Tabelle 2.5.2 von Lektion 2.5 zeigt, dass die altersspezifische Sterberate für die Altersgruppe 1-4 ( 4ich1 ) für costaricanische Männer im Jahr 1960 beträgt 0,00701 pro Person. (Denken Sie daran, dass Tabellen, die altersspezifische Sterberaten darstellen, normalerweise die Rate als "Anzahl der Todesfälle pro 1000 Personen" darstellen, aber in den Berechnungen, die bei der Erstellung einer normalen Sterbetafel verwendet werden, ist die altersspezifische Sterberate "Anzahl der Todesfälle". pro Person.")

Formel verwenden (1) von oben,

Fergany-Methode, Schritt für Schritt

In diesem Beispiel verwenden wir die altersspezifischen Sterberaten aus Tabelle 2.5.2 von Lektion 2.5, um die Erstellung einer Sterbetafel für 1960 costaricanische Männer abzuschließen. Wir folgen der Fergany-Methode.

Besorgen Sie sich altersspezifische Sterberaten. Beachten Sie, dass die altersspezifischen Sterberaten pro Person gelten (Spalte 2 von Tabelle 2.5.2).

Konvertieren Sie altersspezifische Sterberaten (nM x ) in den Anteil der Sterbenden im Altersintervall ( nein qx ) Werte mit der folgenden Formel (Formel (1) von oben):
, wo nein ist die Länge des Altersintervalls

Schritt 2 Beispiele

Für Altersintervall 0-1:
n = 1
Altersspezifische Sterberate () = .07505
= 0.072303

Für Altersintervall 1-4:
n = 4
Altersspezifische Sterberate () = 0,00701
= 0.027651

Für Altersintervall 5-9:
n = 5
Altersspezifische Sterberate () = 0,00171
= 0.008514

Für Altersintervall 85+:
Weil jeder in der Bevölkerung irgendwann stirbt, neinqx Wert dieses Altersintervalls wird auf 1 gesetzt ( neinqx Wert für eine Klasse mit offenem Ende wird immer auf 1 gesetzt.)

Benutzen neinqx l . berechnenx Werte in Spalte 3.

( Hinweis: Diese Berechnungsformel lässt sich leicht in die Tabellenkalkulation implementieren. Berechnen Sie zuerst l1 und in die restlichen Zellen der Spalte kopieren.)

Schritt 3 Beispiele

Berechnen Sie die Anzahl der Todesfälle in Altersintervallen () in Spalte 4 wie folgt:

Hinweis: Manchmal ist es einfach, die Schritte 3 und 4 gleichzeitig zu implementieren:
Zuerst schreiben = 100.000
Dann berechnen Sie:

Berechnen Sie in Spalte 5 die Personenlebensjahre im angegebenen Altersintervall () wie folgt:

(Spalte 4 / altersspezifische Sterberate)

Schritt 5 Beispiel

Berechnen Sie in Spalte 6 die kumulativen Personenlebensjahre nach einem bestimmten Alter ( Tx ):

(Summieren Sie die Werte in Spalte 6 von einem angegebenen Alter bis zum Ende der Tabelle.)

Schritt 6 Beispiele

Die letzte Spalte der Sterbetafel (Spalte 7) ist die Lebenserwartung in einem bestimmten Alter. Diese Spalte wird wie folgt berechnet:

Der Aufbau der Sterbetafel ist mit der Implementierung von Schritt 7 abgeschlossen.

Ausgewählte Merkmale der Sterbetafel

Wir werden einige Merkmale der konstruierten Sterbetafel untersuchen, die für die Konstruktion und Interpretation einer mehrfach dekrementierten Sterbetafel relevant sind:

1. Die Summe der Werte in Spalte 4 entspricht 100.000 (= ).

2. Die Summe der Werte in Spalte 4 eines bestimmten Alters entspricht dem Wert in diesem Alter, wie in Spalte 3 gezeigt.

Beispielsweise:

Somit kann man die kumulative Zahl der Todesfälle nach einem bestimmten Alter interpretieren.

3. Das Alter, in dem Menschen in der Sterbetafel-Kohorte sterben, ist ebenfalls wichtig für unser Verständnis des Altersmusters des Sterbens. Die Spalte (Spalte 4 der Sterbetafel) gibt die Häufigkeitsverteilung des Sterbealters in der Bevölkerung an.

Ein Diagramm dieser Häufigkeitsverteilung zeigt das Altersmuster der Todesfälle in der Bevölkerung. Leider ist diese Häufigkeitsverteilung in ungleich langen Altersintervallen (und einem offenen Intervall am Ende) angegeben. Daher ist ein Diagramm mit Anpassung an die ungleichen Altersintervalle für diese Sterbetafel besser geeignet.

Abbildung 3.2.1 zeigt das Muster der Altersverteilung der Sterbefälle aus der obigen Sterbetafel (Tabelle 3.2.1). Beachten Sie, dass in diesem Beispiel das offene Altersintervall 85+ bei 85-100 geschlossen ist. Der Anteil der Todesfälle in jeder Altersgruppe wird durch die Länge des Altersintervalls geteilt. Das Diagramm wird gezeichnet, indem die Werte in der Mitte jedes Intervalls verbunden werden.

Abbildung 3.2.1: Altersverteilung der Todesfälle für 1960 costa-ricanische Männer

Die Grafik zeigt, dass ein hoher Anteil der Kohorte im Säuglingsalter stirbt. Die Sterbefälle nehmen bis zum frühen Erwachsenenalter ab, steigen bis zum Alter von 80 Jahren an und beginnen dann im Extremalter wieder abzunehmen. Beachten Sie, dass der starke Rückgang ganz rechts auf die geringe Zahl extrem alter Überlebender in dieser Population zurückzuführen ist.

4. Die kumulierte Zahl der Todesfälle ab Lebensbeginn kann auch durch Summieren der entsprechenden Zahlen in Spalte 4 berechnet werden. Die Zahl der Personen in der Kohorte, die vor Erreichen des 15. Lebensjahres sterben, beträgt beispielsweise:

Beachten Sie, dass diese Zahl auch wie folgt berechnet werden kann:

Somit beträgt der Anteil, der vor Erreichen des 15. Lebensjahres stirbt, wie folgt:

Übung 7

Hinweis für die Schüler: Diese längere Übung erfordert die Verwendung einer Tabellenkalkulationssoftware. Viel Glück!

Verwenden Sie die Daten zu den altersspezifischen Todesfällen der 1960 costaricanischen Frauen aus Übung 5, um eine Sterbetafel mit der Fergany-Methode wie oben beschrieben zu erstellen. (Sie haben die benötigte Datendatei hier als Teil von Übung 5 heruntergeladen.)

Verwenden Sie dann Ihre erstellte Sterbetafel, um Folgendes zu tun:

  1. Zeichnen Sie Diagramme der und -Spalten. Beschreiben Sie diese Grafiken kurz.
  2. Zeichnen Sie mithilfe der Spalte in der Sterbetafel ein Diagramm der Altersverteilung der Todesfälle (unter Berücksichtigung der ungleichen Altersintervalle). Kommentieren Sie das in dieser Grafik dargestellte Altersmuster der Sterblichkeit.
  3. Stellen Sie sicher, dass dies die Summe der ist neindx Spalte von 65 Jahren bis zum Ende der Tabelle.

Wenn Sie Ihre Arbeit beendet haben, vergleichen Sie Ihre Ergebnisse mit dem unten stehenden Antwortschlüssel.

Antworten zu den Übungen

Übung 6

Die Basis der Sterbetafel beträgt normalerweise 100.000, kann aber auch eine andere Zahl sein. Wo in einer gewöhnlichen Sterbetafel können Sie immer nach der Wurzel suchen?

B. In der ersten Zeile von Spalte 3. Die Radix ist einfach die Anfangszahl der Neugeborenen für die Sterbetafel. Da Spalte 3 die Anfangszahl der Personen in jedem Altersintervall angibt, gibt die erste Zeile die Anzahl der Personen ab dem Alter 0 an. In diesem Fall sind es wie üblich 100.000.

Gemäß Spalte 7 von Tabelle 3.1.2 kann ein Neugeborenes in den USA im Jahr 1997 damit rechnen, ein Alter von 76,5 Jahren zu erreichen. Wenn das Kind 50 Jahre alt wird, welches Alter würde es voraussichtlich erreichen?

C. 79.7. Spalte 7 gibt an, wie viele weitere Lebensjahre im Durchschnitt von Personen erwartet werden, die es bis zum Beginn des Altersintervalls geschafft haben. Ein 50-Jähriger würde also im Durchschnitt noch 29,7 Jahre zu leben erwarten (50 + 29,7 = 79,7).

Wie aus Tabelle 3.1.2 geht hervor, dass von den 1997 in den USA Geborenen, die das 70. Lebensjahr erreichen, wie viel Prozent voraussichtlich sterben, bevor sie 75 Jahre alt werden?

A. 14%. Spalte 2 gibt den Anteil der zu Beginn des Altersintervalls lebenden Personen an, die während des Altersintervalls sterben. Ein 70-Jähriger hat also eine Wahrscheinlichkeit von 0,14365 (gerundet auf 14%) im Alter zwischen 70 und 75 Jahren zu sterben.

Wie hoch ist laut Tabelle 3.1.2 die Wahrscheinlichkeit, dass ein Neugeborenes in den USA im Jahr 1997 das 20. Lebensjahr erreicht?

C. .986. Da Spalte 3 die Anzahl der Menschen angibt, die bis zum Beginn des Altersintervalls überlebt haben (98.558 haben es bis zum Alter von 20 Jahren geschafft) und Sie die Anzahl der Menschen kennen, die damit begonnen haben (100.000), beträgt die Wahrscheinlichkeit, das 20. Lebensjahr zu erreichen, 98.558/100.000 = .98558.

Übung 7

Verwenden Sie die Daten zu den altersspezifischen Todesfällen der 1960 costaricanischen Frauen aus Übung 5, um eine Sterbetafel mit der Fergany-Methode wie oben beschrieben zu erstellen. (Sie haben die benötigte Datendatei hier als Teil von Übung 5 heruntergeladen.)

Verwenden Sie dann Ihre erstellte Sterbetafel, um Folgendes zu tun:

  1. Zeichnen Sie Diagramme der und -Spalten. Beschreiben Sie diese Grafiken kurz.
  2. Zeichnen Sie eine Grafik der Altersverteilung der Sterbefälle (unter Berücksichtigung der ungleichen Altersintervalle) unter Verwendung der neindx Spalte in der Sterbetafel. Kommentieren Sie das in dieser Grafik dargestellte Altersmuster der Sterblichkeit.
  3. Stellen Sie sicher, dass dies die Summe der ist neindx Spalte von 65 Jahren bis zum Ende der Tabelle.

Verwenden Sie dann Ihre erstellte Sterbetafel, um Folgendes zu tun:

1. Zeichnen Sie Diagramme der und -Spalten. Beschreiben Sie diese Grafiken kurz.

Der Anteil der Menschen, die während des Altersintervalls sterben, ist in den ersten beiden Altersintervallen, niedrig und flach bis etwa 45 Jahre, etwas höher und steigt danach ziemlich steil an, bis er für die Altersgruppe 85+ bei 1,0 liegt.

Natürlich nimmt die Zahl der lebenden Menschen zu Beginn jedes Intervalls ab dem Alter von 45 Jahren schneller ab.

2. Zeichnen Sie eine Grafik der Altersverteilung der Todesfälle (unter Berücksichtigung der ungleichen Altersintervalle) unter Verwendung der neindx Spalte in der Sterbetafel. Kommentieren Sie das in dieser Grafik dargestellte Altersmuster der Sterblichkeit.

Die höchste Sterblichkeitsrate liegt im allerersten Altersintervall. Nach dem zweiten Altersintervall sind die Sterblichkeitsraten niedrig und flach, bevor sie bei etwa 47,5 (Altersintervall-Mittelpunkt) steigen und bei 82,5 ihren Höhepunkt erreichen. Der steile Rückgang in der letzten Altersgruppe ist teils auf die geringe Zahl der Überlebenden und teils darauf zurückzuführen, dass es sich um ein unbefristetes Intervall handelt. Wenn die Tabelle in Fünfjahresintervallen fortgeführt wird, scheint der Rückgang allmählicher zu sein.

3. Stellen Sie sicher, dass dies die Summe der ist neindx Spalte von 65 Jahren bis zum Ende der Tabelle.


Inhalt

Kreisdaten

Der Atlas für Kreisdaten (www.cdc.gov/diabetes/atlas/countydata/atlas.html) zeigt eine Karte der Vereinigten Staaten mit groben und altersbereinigten Schätzungen der Prävalenz und Inzidenz von Diabetes sowie der Prävalenz von Fettleibigkeit und körperlichen Inaktivität nach Landkreis. Es enthält auch Daten zur Prävalenz von Diabetes, Fettleibigkeit und Bewegungsmangel nach Geschlecht. In diesem Atlas kann der Benutzer mit Karten und Datentabellen interagieren. Der Benutzer kann einen Indikator auswählen, der sowohl in der Karte als auch in der Tabelle angezeigt werden soll, indem er auf die Schaltfläche &ldquoIndikator&rdquo klickt und eine Auswahl aus der Dropdown-Liste trifft. Die Standardanzeige zeigt alle US-Counties (Abbildung 1). Um Kreisdaten nach Bundesstaat anzuzeigen, würde der Benutzer auf die Schaltfläche &ldquoState auswählen&rdquo klicken, um einen Bundesstaat aus der Dropdown-Liste aller Bundesstaaten auszuwählen.

Abbildung 1. Screenshot der Standardanzeige der US-County-Daten zu Diabetes und seinen Risikofaktoren im Diabetes Interactive Atlas (www.cdc.gov/diabetes/atlas/countydata/atlas.html). [Eine Textbeschreibung dieser Abbildung ist ebenfalls verfügbar.]

Die Datentabelle kann nach jeder Spaltenüberschrift in der Tabelle sortiert werden, einschließlich Landkreisname, Bundesstaatname, Indikatorwert, untere und obere Konfidenzgrenze des Indikatorwerts und Gesamtzahl der Erwachsenen nach Indikator. In der Datentabelle ausgewählte Zeilen oder mehrere Zeilen werden auf der Karte hervorgehoben. Wenn der Benutzer auf einen Landkreis oder mehrere Landkreise klickt oder auf der Karte über einen Landkreis rollt, werden diese Landkreise in der Tabelle hervorgehoben. Mit der Schaltfläche &ldquoLegend Settings&rdquo kann der Benutzer verschiedene Datenklassifizierungen (dh gleiche Intervalle, kontinuierliche, natürliche Unterbrechungen oder Quantile) und eine unterschiedliche Anzahl von Datenklassen (von 2 bis 10 Klassen) auswählen, um einen Indikator anzuzeigen. Die Zeitanimationsleiste, die sich oben auf der Webseite befindet, ermöglicht es dem Benutzer, Trends im Zeitverlauf für die Vereinigten Staaten anzuzeigen und ein beliebiges Jahr für die Anzeige auszuwählen. Weitere Funktionen des Atlas sind Funktionen zum Vergrößern und Verkleinern, Drucken, Exportieren und Herunterladen sowie ein Tutorial, &ldquoSo verwenden Sie den Atlas.&rdquo

Kreisrangliste

Der Atlas für Kreisrankings (www.cdc.gov/diabetes/atlas/countyrank/atlas.html) enthält alle Funktionen des Atlas für Kreisdaten. Es zeigt eine Karte der Vereinigten Staaten nach Landkreisen und gibt an, ob die altersbereinigten Raten (des gewählten Indikators) in den Landkreisen höher oder niedriger liegen oder sich nicht von den US-Medianwerten unterscheiden. Ränge für Kreisdaten zu diagnostiziertem Diabetes, Fettleibigkeit und Bewegungsmangel sind jedoch verfügbar, Ränge für Kreisschätzungen der Diabetes-Prävalenz nach Geschlecht oder für die Inzidenz sind jedoch nicht verfügbar, da die meisten dieser Messungen einen Variationskoeffizienten von mehr als 0,3 aufweisen. Die Rangschätzungen haben große Konfidenzintervalle und sind stark variabel (20). Diese Konfidenzintervalle müssen berücksichtigt werden, bevor auf der Grundlage von Rängen Schlussfolgerungen über Landkreise gezogen werden können. Im Jahr 2010 lag Cook County, Illinois, beispielsweise auf Platz 1.508 bei der Prävalenz von diagnostiziertem Diabetes. Die unteren und oberen Grenzen des Rangs für Cook County waren jedoch 1.224. (5. Perzentil) und 1.774. (95. Perzentil).

Karten und Bewegungsdiagramme

Karten und Bewegungsdiagramme: die Option &ldquoAlle Staaten&rdquo

Die Webseite &ldquoMaps and Motion Charts &mdash All States&rdquo (www.cdc.gov/diabetes/atlas/obesityrisk/atlas.html) bietet mehr Informationen und die Standardanzeige ist komplizierter als andere Anzeigen des Atlas. Die Standardanzeige (Abbildung 2) zeigt 4 Bilder mit Daten zu allen 50 Zuständen: 1) eine Choroplethenkarte der alterskorrigierten Diabetesprävalenz (die auf eine Tabellenansicht umgeschaltet werden kann), 2) ein Blasendiagramm des alterskorrigierten Diabetes und Adipositas-Prävalenz, 3) ein Balkendiagramm der altersadjustierten Diabetes-Prävalenz und 4) ein Diagramm der US-medianen altersadjustierten Diabetes-Prävalenz von 1994 bis 2010. Zusätzlich zeigt die Seite eine Zeitanimationsleiste. Die Standardanzeige der Bundesstaatsdaten ist die Landesansicht, der Benutzer kann jedoch auf die Schaltfläche &ldquoRegion auswählen&rdquo klicken und die Bundesstaatsdaten nach US-Volkszählungsregion oder -abteilung anzeigen. Das Balkendiagramm zeigt den Indikatorwert mit unteren und oberen Konfidenzgrenzen für jeden Bundesstaat für jedes Jahr. Der Unsicherheitsgrad für jede Schätzung wird durch Untersuchung der Fehlerbalken festgestellt, die Unter- und Obergrenzen anzeigen. Eine genaue Schätzung hat beispielsweise ein enges Intervall. Das Zeitreihendiagramm zeigt eine orangefarbene Trendlinie an, die die US-Medianprävalenz für jedes Jahr darstellt. Wenn der Benutzer die Maus über einen Bundesstaat in der Karte, dem Blasendiagramm oder dem Balkendiagramm bewegt, wird die Trendlinie für diesen Bundesstaat angezeigt und kann mit dem US-Median verglichen werden.

Figur 2. Screenshot der Standardanzeige der Karten und Bewegungsdiagramme zu Diabetes und seinen Risikofaktoren für alle Staaten im interaktiven Diabetes-Atlas (www.cdc.gov/diabetes/atlas/obesityrisk/atlas.html). [Eine Textbeschreibung dieser Abbildung ist ebenfalls verfügbar.]

Durch Klicken auf die Schaltfläche &ldquoPlay&rdquo in der Zeitanimationsleiste kann der Benutzer Änderungen eines Indikators im Zeitverlauf und zwischen den Zuständen in der Karte, dem Blasendiagramm und dem Balkendiagramm sehen. Die Bewegung des Blasendiagramms ermöglicht die Untersuchung des komplexen Zusammenspiels von Daten zwischen einem Indikator und einem bekannten Risikofaktor, Adipositas. Die für die Standard-Bewegungsdiagrammdaten definierten Parameter sind die folgenden: x-Achse ist der altersbereinigte Prozentsatz der Fettleibigkeit, der ja-Achse ist die altersbereinigte Prävalenz von Diabetes, die Blasenfarbe gibt die Datenklasse an und die Blasengröße ist proportional zur Anzahl der Erwachsenen mit Diabetes. Obwohl die x-Achse zeigt immer Fettleibigkeit an, der Benutzer kann einen anderen Indikator (dh Diabetesinzidenz oder körperliche Inaktivität) für die ja-Achse.

Der Benutzer kann mehrere Zustände auswählen, indem er die &ldquoControl&rdquo-Taste gedrückt hält, während er mit der Maus klickt. Diese Zustände werden in allen Datenrahmen hervorgehoben. Weitere Funktionen im Atlas sind das Vergrößern und Verkleinern, Drucken, Exportieren, Herunterladen und ein Online-Tutorial.

Karten und Bewegungsdiagramme: die Option &ldquoAuswählen eines Bundeslandes&rdquo

Durch Klicken auf &ldquoSelect a State&rdquo (www.cdc.gov/diabetes/atlas/obesityrisk/county_statelist.html) gelangt der Benutzer auf eine Seite, die die Namen der 50 Staaten anzeigt, und durch Klicken auf einen Staat wird der Benutzer zu altersbereinigten Schätzungen auf Bezirksebene für den ausgewählten Bundesstaat. Die Webseiten &ldquoSelect a State&rdquo enthalten alle Komponenten und Funktionen von &ldquoAll States.&rdquo Der Atlas enthält ein transparentes Kartenwerkzeug, das Benutzern hilft, die einen Städtenamen, aber keinen Kreisnamen kennen. Durch Verschieben des Schiebereglers des Tools auf hohe Transparenz kann der Benutzer die Stadt auf der Hintergrundkarte finden und dann auf die Stadt klicken, um den Landkreis und den Landkreisnamen hervorzuheben.


3 Antworten 3

Sie können so etwas mit simultaner Quantil-Regression mit einem Set von Dummys tun, die den 4 Gruppen entsprechen. Auf diese Weise können Sie Konfidenzintervalle testen und erstellen, indem Sie Koeffizienten vergleichen, die verschiedene Quantile beschreiben, die Ihnen wichtig sind.

Hier ist ein Spielzeugbeispiel, bei dem wir die gemeinsame Null nicht ablehnen können, dass das 25., 50. und 75. Quartil der Autopreise in allen 4 MPG-Gruppen gleich sind (der p-Wert beträgt 0,374):

Es scheint jedoch große Unterschiede zwischen Gruppe 1 und den Gruppen 2-4 für die 3 Quantile in der Grafik zu geben. Dies sind jedoch nicht viele Daten, so dass die Nichtablehnung mit dem formalen Test aufgrund der "Mikrozahl" vielleicht nicht so überraschend ist.

Interessanterweise lehnt der Kruskal-Wallis-Test die Hypothese ab, dass 4 Gruppen aus derselben Population stammen:

Unter der Annahme, dass Ihre Kurven die empirischen CDFs darstellen, die aus Daten gewonnen wurden, wäre die übliche Methode zum Testen auf einen Unterschied zwischen mehr als zwei Gruppen eine Art nichtparametrischer Test mit mehreren Stichproben, ähnlich dem Kolmogorov-Smirnov-Test, oder ein rangbasierter ANOVA-Test wie der Kruskal-Wallis-Test mit mehreren Stichproben. Es gibt eine Reihe von Artikeln in der statistischen Literatur, die sich mit nichtparametrischen Tests dieser Art mit mehreren Stichproben befassen (siehe z. B. Kiefer 1959, Birnbaum und Hall 1960, Conover 1965, Sen 1973 für frühe Literatur). Wenn Sie sich auf einen interessierenden paarweisen Vergleich reduzieren, können Sie natürlich die traditionellen Zweistichprobentests verwenden.

Es gibt ein R-Paket namens ksamples, das den Kruskal-Wallis-Test mit mehreren Stichproben und einige andere nicht parametrische Tests mit mehreren Stichproben implementiert. Mir ist kein Paket bekannt, das den KS-Test mit mehreren Stichproben durchführt, aber andere können Sie möglicherweise auf zusätzliche Ressourcen hinweisen.

Um 2 Verteilungen gleichzeitig ("paarweise") zu vergleichen, ist es möglich, alle Wertebereiche zu finden, für die sich die CDFs statistisch signifikant unterscheiden, während die Familienfehlerrate (FWER) auf Ihrem gewünschten Niveau gesteuert wird. Dieser (neue) Ansatz wird in diesem Artikel des Journal of Econometrics 2018 sowie in diesem Artikel des Stata Journal 2019 ausführlich beschrieben. R- und Stata-Code (und offene Artikelentwürfe und Replikationsdateien) finden Sie unter https://faculty.missouri.edu/

kaplandm. Beide Artikel enthalten Beispiele mit echten Daten. Alles ist vollständig nichtparametrisch und die "starke Kontrolle" von FWER ist selbst in kleinen Stichproben genau.


6 Antworten 6

Dies ist teilweise eine Antwort an @Sashikanth Dareddy (da es nicht in einen Kommentar passt) und teilweise eine Antwort auf den ursprünglichen Beitrag.

Denken Sie daran, was ein Vorhersageintervall ist, es ist ein Intervall oder eine Reihe von Werten, in denen wir vorhersagen, dass zukünftige Beobachtungen liegen. Im Allgemeinen besteht das Vorhersageintervall aus 2 Hauptteilen, die seine Breite bestimmen, ein Teil, das die Unsicherheit über den vorhergesagten Mittelwert (oder einen anderen Parameter) darstellt, dies ist der Konfidenzintervallteil, und ein Teil, der die Variabilität der einzelnen Beobachtungen um diesen Mittelwert herum darstellt. Das Konfidenzintervall ist aufgrund des zentralen Grenzwertsatzes ziemlich robust und im Fall eines Random Forest hilft auch das Bootstrapping. Das Vorhersageintervall hängt jedoch vollständig von den Annahmen über die Verteilung der Daten ab, da die Prädiktorvariablen, CLT und Bootstrapping keinen Einfluss auf diesen Teil haben.

Das Vorhersageintervall sollte breiter sein, wo auch das entsprechende Konfidenzintervall breiter wäre. Andere Dinge, die die Breite des Vorhersageintervalls beeinflussen würden, sind Annahmen über gleiche Varianz oder nicht, dies muss aus dem Wissen des Forschers stammen, nicht aus dem Random-Forest-Modell.

Ein Vorhersageintervall ist für ein kategoriales Ergebnis nicht sinnvoll (Sie könnten einen Vorhersagesatz anstelle eines Intervalls erstellen, aber die meiste Zeit wäre es wahrscheinlich nicht sehr informativ).

Wir können einige der Probleme im Zusammenhang mit Vorhersageintervallen erkennen, indem wir Daten simulieren, bei denen wir die genaue Wahrheit kennen. Betrachten Sie die folgenden Daten:

Diese speziellen Daten folgen den Annahmen für eine lineare Regression und sind für eine Random-Forest-Anpassung ziemlich einfach. Aus dem "wahren" Modell wissen wir, dass, wenn beide Prädiktoren 0 sind, der Mittelwert 10 ist, wir wissen auch, dass die einzelnen Punkte einer Normalverteilung mit der Standardabweichung von 1 folgen. Dies bedeutet, dass das 95 %-Vorhersageintervall basierend auf perfektem Wissen für diese Punkte würden zwischen 8 und 12 liegen (eigentlich 8,04 bis 11,96, aber das Runden macht es einfacher). Jedes geschätzte Vorhersageintervall sollte breiter sein (das Fehlen perfekter Informationen erhöht die Breite zum Ausgleich) und sollte diesen Bereich umfassen.

Schauen wir uns die Intervalle aus der Regression an:

Wir können sehen, dass die geschätzten Mittelwerte (Konfidenzintervall) eine gewisse Unsicherheit aufweisen, und das gibt uns ein Vorhersageintervall, das breiter ist (aber den Bereich von 8 bis 12 umfasst).

Schauen wir uns nun das Intervall an, das auf den individuellen Vorhersagen einzelner Bäume basiert (wir sollten erwarten, dass diese breiter sind, da der Random Forest nicht von den Annahmen profitiert (von denen wir wissen, dass sie für diese Daten wahr sind), die die lineare Regression macht):

Die Intervalle sind breiter als die Intervalle der Regressionsvorhersage, decken jedoch nicht den gesamten Bereich ab. Sie enthalten die wahren Werte und können daher als Konfidenzintervalle legitim sein, aber sie sagen nur vorher, wo der Mittelwert (vorhergesagter Wert) ist, nicht das hinzugefügte Stück für die Verteilung um diesen Mittelwert. Für den ersten Fall, in dem x1 und x2 beide 0 sind, gehen die Intervalle nicht unter 9,7, dies unterscheidet sich stark vom wahren Vorhersageintervall, das auf 8 absinkt. Wenn wir neue Datenpunkte generieren, gibt es mehrere Punkte (viel mehr) als 5 %), die in den True- und Regressionsintervallen liegen, aber nicht in die Random Forest-Intervalle fallen.

Um ein Vorhersageintervall zu generieren, müssen Sie einige starke Annahmen über die Verteilung der einzelnen Punkte um den vorhergesagten Mittelwert treffen, dann könnten Sie die Vorhersagen aus den einzelnen Bäumen (das Bootstrapped-Konfidenzintervallstück) nehmen und dann einen Zufallswert aus dem angenommenen generieren Verteilung mit diesem Zentrum. Die Quantile für diese generierten Stücke können das Vorhersageintervall bilden (aber ich würde es trotzdem testen, Sie müssen den Vorgang möglicherweise noch mehrmals wiederholen und kombinieren).

Hier ist ein Beispiel dafür, indem man normale Abweichungen (da wir wissen, dass die Originaldaten eine normale verwendet haben) zu den Vorhersagen mit der Standardabweichung basierend auf dem geschätzten MSE aus diesem Baum hinzufügt:

Diese Intervalle enthalten solche, die auf perfektem Wissen basieren, also sehen Sie vernünftig aus. Sie hängen jedoch stark von den getroffenen Annahmen ab (die Annahmen sind hier gültig, da wir das Wissen darüber verwendet haben, wie die Daten simuliert wurden, sie sind in realen Datenfällen möglicherweise nicht so gültig). Ich würde die Simulationen immer noch mehrmals für Daten wiederholen, die eher Ihren echten Daten ähneln (aber simuliert, damit Sie die Wahrheit kennen), bevor ich dieser Methode voll und ganz vertraue.


Danksagung

Dieses Papier wurde als Teil des Workshops „Filling in gaps in global Understanding of ökologischer Stabilität und Koexistenz“ (FIGS) konzipiert, der durch einen UFZ-Programmsynthesezuschuss, UFZ-IP-11-Projektintegrationsfonds und das französische Labor „TULIP“ von Exzellenz (ANR-10-LABX-41 ANR-11-IDEX-0002-02). Die Beiträge von ATC, SH, JMC und AM wurden teilweise auch durch das Deutsche Zentrum für integrative Biodiversitätsforschung (iDiv) Halle-Jena-Leipzig gefördert durch die Deutsche Forschungsgemeinschaft (FZT 118). ML, CdM und YRZ wurden durch den BIOSTASES Advanced Grant gefördert, der vom Europäischen Forschungsrat im Rahmen des Forschungs- und Innovationsprogramms Horizon 2020 der Europäischen Union (Fördervereinbarung Nr. 666971) gefördert wird. GB wurde vom schwedischen Forschungsrat (Grant VR 2017-05245) finanziert. LGS wurde von einem NSF EPSCoR Track 1 RII Grant (NSF Award #EPS-1655726) finanziert. Die Autoren danken auch K. Thompson, den Laborgruppen Harpole und Chase am iDiv und UFZ sowie der Hillebrand-Laborgruppe am HIFMB für hilfreiches Feedback zu früheren Entwürfen dieses Manuskripts. Open-Access-Förderung ermöglicht und organisiert von Projekt DEAL.


Wie können wir die Werte der Intervalle in der Legende in R - Geographische Informationssysteme abrufen?

Die Rasteranalyse ähnelt in vielerlei Hinsicht der Vektoranalyse. Es gibt jedoch einige wesentliche Unterschiede. Die Hauptunterschiede zwischen Raster- und Vektormodellierung hängen von der Art der Datenmodelle selbst ab. Sowohl bei der Raster- als auch bei der Vektoranalyse sind alle Operationen möglich, da Datasets in einem gemeinsamen Koordinatensystem gespeichert werden. Jede Koordinate im planaren Abschnitt liegt innerhalb oder in der Nähe eines vorhandenen Objekts, unabhängig davon, ob es sich bei diesem Objekt um einen Punkt, eine Linie, ein Polygon oder eine Rasterzelle handelt.

Bei der Vektoranalyse sind alle Operationen möglich, da Features in einem Layer anhand ihrer Position lokalisiert werden in explizitem Bezug zu bestehenden Features in anderen Schichten. Dem Arc-Knoten-Vektordatenmodell inhärent ist die Chiralität oder die Links- und Rechtshändigkeit von Bögen (wie im Polygondatenmodellbild von Spatial Data Model gezeigt). Als Folge davon sind Eindämmung und Überlappung inhärente Beziehungen zwischen Schichten. Ein Punkt auf einer Ebene befindet sich beispielsweise auf einer Seite eines Bogens in einer anderen Ebene oder innerhalb oder außerhalb eines Polygons in einer weiteren Ebene. Die Komplexität des Vektordatenmodells führt zu recht komplexen und hardwareintensiven Operationen.

Die Rasteranalyse hingegen erzwingt ihre räumlichen Beziehungen ausschließlich auf der Position der Zelle. Rasteroperationen, die an mehreren Eingabe-Raster-Datasets ausgeführt werden, geben im Allgemeinen Zellwerte aus, die das Ergebnis von Berechnungen auf Zelle-für-Zelle-Basis sind. Der Wert der Ausgabe für eine Zelle ist normalerweise unabhängig vom Wert oder der Position anderer Eingabe- oder Ausgabezellen. In einigen Fällen werden Zellenwerte ausgegeben sind Beeinflusst durch benachbarte Zellen oder Zellgruppen, beispielsweise bei fokalen Funktionen.

Rasterdaten eignen sich besonders für kontinuierliche Daten. Kontinuierliche Datenänderungen über eine Landschaft oder Oberfläche hinweg. Phänomene wie chemische Konzentration, Neigung, Höhe und Ausrichtung werden in Rasterdatenstrukturen viel besser behandelt als in Vektordatenstrukturen. Aus diesem Grund sind viele Analysen besser geeignet oder nur mit Rasterdaten möglich. In diesem und im nächsten Abschnitt werden die Grundlagen der Raster-Datenverarbeitung sowie einige der gebräuchlicheren Analysewerkzeuge erläutert.

ArcGIS kann verschiedene Formate von Raster-Daten verarbeiten. Obwohl ArcGIS alle unterstützten Raster-Datentypen als Bilder laden kann und die Analyse mit jedem unterstützten Raster-Dataset durchgeführt werden kann, ist die Ausgabe von Raster-Analysefunktionen immer das ArcInfo-Format Gitter. Because the native raster dataset in ArcGIS is the ArcInfo format grid, from this point on, the term grid will mean the analytically enabled raster dataset.

ArcGIS 's interface to raster analysis is through the Spatial Analyst Extension. The Spatial Analyst, when loaded, provides additions to the ArcGIS GUI, including new menus, buttons, and tools. The features added to ArcGIS with the Spatial Analyst are listed here.

Grid layers are graphical representations of the ArcGIS and ArcInfo implementation of the raster data model. Grid layers are stored with a numeric value for each cell. The numeric cell values are either integer oder floating-point. Integer grids have integer values for the cells, whereas floating-point grids have value attributes containing decimal places.

Cell values may be stored in summary tables known as Value Attribute Tables (VATs) within the info subdirectory of the working directory. Because the possible number of unique values in floating-point grids is high, VATs are not built or available for floating-point grids.

VATs do not always exist for integer grids. VATs will exist for integer grids that have:

  • a range of values (maximum minus minimum) less than 100,000 and
  • a number of unique values less than 500

It is possible to convert floating-point grids to integer grids, and vice versa, but this frequently leads to a loss of information. For example, if your data have very precise measurements representing soil pH, and the values are converted from decimal to integer, zones which were formerly distinct from each other may become indistinguishable.

Grid zones are groups of either contiguous or noncontiguous cells having the same value.

Grid regions are groups of contiguous cells having the same value. Therefore, a grid zone can be composed of 1 or more grid regions.

Although Raster Calculations (which will be discussed shortly) can be performed on both integer and floating-point grids, normal tabular selections are only possible on integer grids that have VATs. This is because a tabular selection is dependent on the existence of a attribute table. Those grids without VATs have no attribute tables, and are therefore unavailable for tabular selections.

Grid layer properties

Grid layer properties can be determined by viewing Properties.

Das Allgemeines tab shows the Layer Name as it appears in the Table of Contents

Das Quelle tab shows the Data Source file location and a number of other pieces of information, such as the Cell Size, the number of Rows und Columns, the grid Art (Float or Integer), and the Status (Temporary or Permanent).

Das Extent tab shows the lower-left and upper-right coordinates.

Das Display und Symbolik tabs are used to alter the display of the layer.

Adding grid layers to data frames

Grid layers are added to data frames in the same manner as feature or image layers, by using the File > Add Data menu control, the Add Layer button , or by dragging from ArcCatalog. Grid data sources can be added to any ArcMap document. However, in order to load grid data sources for analysis into a data frame within the map document, the Spatial Analyst Extension must be loaded.

Also, in order to access many Spatial Analyst functions, it is necessary to add the Spatial Analyst toolbar.

If the Spatial Analyst Extension is not loaded, it is still possible to add grid data sources to a data frame, but only as simple images. Image layers cannot be queried or analyzed in any way. Image layers are usually not associated with any meaningful attribute values, other than a simple numeric value used for color mapping.

Displaying grid layers

Grid layer displays are altered in almost exactly the same manner as feature layers. Changes to the display of grid layers are done using the Legend Editor. Like polygon feature layers, shading of fills can be changed by altering the symbols of individual classes, by changing the Color Ramp, legend labels, and classification properties. One exception is that grids cannot be displayed with anything other than a solid fill symbol.

Here, the Pack Forest elevation floating-point elevation grid is displayed with in 5 equal-interval, natural breaks classes, with a gray monochromatic color scheme. Notiere dass der No Data class is not included in the 5 classes.

Here the legend has been changed to a Stretched Color Ramp (an option not available for vector data).

Examining cell values in grid layer

As with vector data, to see the spread of values for a grid, view the layer properties. The histogram displays cell values on the X-axis and cell counts on the Y-axis.

For all grid layers, individual cell values can be queried using the Identify tool . Clicking on a cell for the active grid layer will display the attribute values for the layer. Das Identify Results dialog will display the name of the grid layer, the X and Y coordinates of the cell, and the cell's value.

For integer layers with VATs, it is possible to perform tabular selections. Here are all cells with an elevation between 1000 and 1500 ft. In order to make the selection it is necessary to open the VAT and perform the Select By Attributes in table Options.

As with normal feature layer selections, cells meeting the query criteria are displayed in the default selection color.

Managing grid layer files

When the Spatial Analyst performs operations that create new grids on the fly, these new grids are by default temporarily stored in the working directory. If the layer is deleted from the data frame, the grid will also be deleted from the disk. Frequently, grid queries and analyses are not formatted properly in order to obtain the desired result. The incorrect grid can be deleted from the map document, and it will also be removed from the file system (unlike shapefiles, which need to be manually deleted). After the correct result is obtained, the new temporary grid can be saved permanently. In order to make sure that newly created grids are saved, right-click and select Make Permanent. When you do save grid layers, you can choose the file system directory and the name of the layer, rather than accepting the default name and location of the dataset assigned by ArcGIS.

If there are permanently stored grids in a map document, and these are deleted from the map document, they will not be automatically deleted from the disk. If you want to delete the data source you will need to manually delete in the same manner that you manually delete shapefiles or other data sources (that is, with ArcCatalog). Be aware of this, because grid dataset files are very large in size, and can easily fill up a drive, especially a puny 128 MB removable drive.

In order to be able to copy, rename, or delete a layer, all references to the layer must be removed from the map document. Sometimes, even if the layer is removed from the data frame and the attribute table is deleted, ArcGIS "holds on" to a layer. In these cases, it becomes necessary to completely close a ArcGIS entirely before a data source can be deleted.

If you need to delete a grid data source, never use the operating system, use only ArcCatalog. Otherwise you will end up corrupting the file system by leaving "junk" data in the info directory. Cleaning up after this requires the use of ArcInfo's command-line interface.

There are limitations for storing grid data sources you should be aware of:

No spaces in directory or file names! This is a requirement of the complete pathname to a grid data source. Here is an unacceptable pathname:

C:projectsdatagrid datasoil_loss

and an acceptable pathname

13 character limitation on grid names. Here is an unacceptable grid name:


Research involving human participants: All procedures performed in studies involving human participants were in accordance with the ethical standards of the institutional and/or national research committee and with the 1964 Helsinki declaration and its later amendments or comparable ethical standards.

Rui Li is an associate professor at the Department of Geography and Planning, State University of New York at Albany. He received his doctoral degree in Geography from The Pennsylvania State University. His main research interest is geographic information science with a special focus on the interaction among map representation, environments, and human spatial behaviors. He investigates the spatial cognition and user experiences with geospatial technologies and utilizes findings to inform the design and implementations of cognitively efficient technologies including navigation systems.


Schau das Video: R Plotly Tutorial - Hide Legend, Position or Change Legend Orientation (Oktober 2021).