Mehr

2: Daten - Geowissenschaften


Beim Bewundern einer gut gestalteten Karte vergisst man leicht, dass sie aus Daten besteht, die von irgendwoher stammen. Eine Einzelperson oder eine Gruppe von Personen hat eine oder mehrere Fragen gestellt, Daten als Antwort gesammelt und die Rohzahlen verarbeitet, bevor sie alles auf die Karte gesetzt haben. Diese Daten sind notwendigerweise nur ein kleiner Teil dessen, was gemessen werden kann, denn es ist unmöglich, alle Merkmale für alle Orte zu allen Zeiten zu messen. Stattdessen konzentrieren wir uns darauf, wie und warum Daten für was, wo und wann gesammelt wurden.

Dieses Kapitel stellt Ihnen Folgendes vor:

  • Elemente und gängige Arten von Geodaten.
  • Metadaten oder Daten über Daten.
  • Wie Daten bei der US-Volkszählung – einer Umfrage, die vielen der Beispiele und Aktivitäten in diesem Buch zugrunde liegt – gesammelt und aggregiert werden.

Auflösung, Genauigkeit und Interoperabilität – wichtige Konzepte, die Teil von Metadaten sind und die bei der Auswahl geeigneter Daten für ein Projekt unbedingt zu berücksichtigen sind.

Am Ende dieses Kapitels sollten Sie in der Lage sein, nachdenkliche Fragen zu den beim Mapping verwendeten Daten zu stellen.

Kartendaten haben drei Hauptmerkmale:

  • Räumlich – wo ein Objekt wurde geortet oder ein Ereignis ist eingetreten
  • Zeitlich – wann der Standort und die Attribute waren korrekt (d. h. bei der Erfassung)
  • Attribut – Was Eigenschaften des Objekts oder Ereignisses

Stellen Sie sich vor, wir haben Daten über US-Bundesstaaten. Räumlich Merkmale von Daten, nämlich die Lage der Staatsgrenzen, sind notwendig, um die Daten auf einer Karte darzustellen oder zu verwenden. Im weiteren Sinne können räumliche Informationen die Form von Straßenadressen, Breiten-Längen-Koordinaten oder dem Gebiet annehmen, in dem die Daten erfasst wurden (z. B. Wohnblock, Stadt, Bundesland, Land). Zeitlich Merkmale beziehen sich darauf, wie Daten einen „Schnappschuss“ der Dinge zum Zeitpunkt der Datenerhebung darstellen, wie z. B. Volkszählungsdaten aus dem Jahr 2000. Attribut Merkmale beschreiben die Beschaffenheit eines Ortes. Im Fall der Staaten könnten wir uns um Bevölkerung oder Einkommen oder um Hunderte anderer Merkmale kümmern.


Datentabelle und Karte. Diese Attributtabelle und die verknüpfte Karte zeigen die Staatsgrenzen mit Daten des U.S. Census Bureau zur Bevölkerungsdichte. Tabelle und Karte repräsentieren zwei Schlüsselelemente von Geodaten: Standort und Attribute. Ein dritter wichtiger Teil, nicht gezeigt, ist der Zeitpunkt, zu dem diese Daten erhoben wurden. [1]

Zwei Hauptmethoden der Erhebung von Geodaten oder der Sammlung von Informationen über Orte sind Bodenvermessung und Fernerkundung. Bodenvermessung beinhaltet eine Person oder einen Mechanismus beobachtet oder interagiert mit Menschen oder der Umgebung an einem bestimmten Ort. Fernerkundung bezieht sich auf das Sammeln von Daten aus der Ferne, oft durch das Aufnehmen von Bildern aus einem Flugzeug oder Satelliten.

2.2.1 Bodenvermessung

Bodenvermessungen werden durch eine Person oder einen Mechanismus durchgeführt, der mit einem bestimmten Ort interagiert. Dies kann eine Person umfassen, die Standortdaten mit einem Handgerät sammelt, das mit einem globalen Positionierungssystem (GPS) arbeitet, einer Konstellation von Satelliten, die Signale zur Erde senden, wo sie können zur Positionsbestimmung verwendet werden. Umfragen beinhalten Gespräche mit Menschen oder Reisen zu verschiedenen Orten, um Informationen zu sammeln. Eine andere Art der Bodenvermessung findet an Wetterstationen statt, die die Temperatur und andere klimatologische Informationen an einem bestimmten Ort messen. Dies ähnelt einem als Geokodierung bezeichneten Prozess, bei dem Daten mit einem Standortelement wie einer Adresse oder Postleitzahl mit ihren jeweiligen bereits bekannten Bodenkoordinaten abgeglichen werden.

Landvermessung ist eine der ältesten Methoden zur Standortbestimmung. Im Wesentlichen verwenden Landvermesser eine Vielzahl von Werkzeugen, um die genauen Positionen von Standorten zu bestimmen, indem sie aus der Position bekannter Standorte triangulieren, oder mit anderen Worten, die Berechnung von Winkeln und Entfernungen verwenden, um Standorte zu finden. Vermessung gibt es seit Tausenden von Jahren, wahrscheinlich um die Grenzen von Land zu bestimmen und beim Bau großer Gebäude zu helfen. Ab dem 19. Jahrhundert halfen Landvermesser bei der Kartierung vieler Länder und arbeiteten von bekannten zu unbekannten Orten.


Landvermessung. Der Grundstein für moderne Kartierungen wurde gelegt, indem Menschen das Land mit spezialisierten Teleskopen (links) und modernen GPS-fähigen Totalstationen (rechts) betraten und vermessen. [2][3]

Globale Positionierungssysteme (GPS) sind Konstellationen von Satelliten, die die Erde umkreisen. Diese Satelliten senden Signale an die Erdoberfläche, die ihre Position im Weltraum und ein sehr genaues Zeitsignal anzeigen. Ein mit einem entsprechenden GPS-Empfänger ausgestattetes Gerät kann diese Signale interpretieren und den Standort des Geräts auf der Erde bestimmen. Wir betrachten die Verwendung eines GPS-Geräts zur Standortbestimmung als eine Form der Bodenvermessung, da die Satelliten selbst keine Informationen sammeln; es ist das Mobilteil oder das GPS-Gerät, das die Position aus den Satellitensignalen bestimmt.


GPS-Konstellation. Das Global Positioning System ist ein System oder eine Konstellation von Satelliten, die die Erde umkreisen und die es Mobiltelefonen ermöglichen, den Standort zu bestimmen. [4]

Jahrzehntelang erforderte die genaue Ortung von Objekten mit GPS-Geräten teure Ausrüstung und spezielles Training. Es wurde hauptsächlich von Militär, Wissenschaftlern und Regierungsorganisationen durchgeführt. Mit technologischen Entwicklungen, die Computerchips immer kleiner und schneller machen, sind GPS-Empfänger heute Standard in Mobiltelefonen. Es ist jeder Person möglich, den Ort, an dem ein Bild aufgenommen wurde, aufzuzeichnen oder zu markieren oder die täglichen Bewegungen ohne besondere Kenntnisse zu verfolgen. Diese Benutzerfreundlichkeit erweitert erheblich, wer in der Lage ist, Geodaten zu erstellen und die Menge an Geodaten, die vorhanden ist und gespeichert werden muss.

GPS hat seine Nachteile. Da Mobilteile Signale von Satelliten empfangen müssen, die die Erde umkreisen, können diese Signale durch feste Objekte wie Bäume, Gebäude oder Landschaftsmerkmale wie die Seiten von Tunneln oder Schluchten blockiert werden. In einem mäßig bewaldeten Gebiet kann es schwierig sein, ein starkes Signal zu erhalten, ebenso wie in einer Stadt mit hohen Gebäuden. Es gibt eine begrenzte Anzahl von Satelliten, die die Erde umkreisen, und manchmal befindet sich das Handgerät in einer nicht optimalen Position relativ zu diesen Satelliten. Ein GPS-Mobilteil sollte Signale von mindestens vier und idealerweise mehr Satelliten empfangen, die gleichmäßig am Himmel verteilt sind, aber manchmal sind diese Quellen relativ zur Position des Mobilteils gebündelt und die bereitgestellten Koordinaten sind ungenau. Schließlich können die GPS-Koordinaten je nach Qualität des Mobilteils auch ungenau sein, wenn sich das Mobilteil schnell bewegt, beispielsweise in einem Auto oder Flugzeug. Beachten Sie, dass im Allgemeinen schweres Wetter wie Schnee, Regen oder Wolken die GPS-Signale nicht stören.


GPS-Handy. Handsets verfügen über spezielle Funkgeräte und Computer, die Signale von GPS-Satelliten empfangen und dann den Standort bestimmen. [5]

Geokodierung ist das Anhängen eines geografischen Standorts an eine Art von Adressinformationen, z. B. eine Hausadresse oder Postleitzahl, oder eine verbale Beschreibung wie „die Kreuzung von Elm Avenue und Main Street“. Die Geokodierung nimmt verschiedene Formen an, aber die meisten verwenden eine Art Datenbank mit Adressen, deren Standorte genau bekannt sind. Nicht lokalisierte Adressen werden diesen bekannten Adressen in der Datenbank zugeordnet.


Geokodierung beinhaltet das Abgleichen von Straßenadressen mit bekannten Adressen oder besten Schätzungen basierend auf den Bereichen von Straßenadressen entlang von Straßen, die bereits auf einer Karte enthalten sind. [6]

Umfragen Sammeln von Attributinformationen über Einzelpersonen, Haushalte, Unternehmen oder Gebiete. Nicht alle Vermessungen erfassen räumliche Informationen, aber wenn dies der Fall ist, können die Daten mit einem Standort auf einer Karte verknüpft werden. Umfragen können an Haushalte verschickt, persönlich gesammelt oder telefonisch durchgeführt werden. Sie konzentrieren sich in der Regel auf eine bestimmte Teilpopulation oder Aktivität (z. B. die Wahrnehmung der Schüler bezüglich der Sicherheit des Heimwegs). Eine Volkszählung ist eine besondere Art der Erhebung, die Daten über alle Mitglieder einer Bevölkerung erhebt (z. B. mit dem Ziel aller Einwohner eines Landes). Beachten Sie, dass Vermessungsinformationen normalerweise Attributinformationen sind und die Bestimmung des Standorts eine Geokodierung (wie bei einer E-Mail-Vermessung, die die Adresse der befragten Person aufzeichnet) oder die Verwendung eines GPS-Mobilteils durch die Person, die eine Vermessung durchführt, erfordert. Eine andere Art der Erhebung findet statt, wenn Unternehmen wie Google Autos mit GPS-Empfängern und Kameras ausstatten und herumfahren und Bilder ihrer Umgebung aufnehmen.

Sensoren. Es gibt eine wachsende Zahl von Sensoren, die verwendet werden, um eine Vielzahl von menschlichen und Umweltdaten zu messen. Wir haben zum Beispiel seit langem Klimastationen, die viele Variablen wie Temperatur, Sonnenlicht und Niederschlag messen. Die Standorte dieser Sensoren werden durch GPS, Bodenvermessung oder Geokodierung bestimmt.


Klimabeobachtungsstation. Solche bodengestützten Stationen sammeln Wetterinformationen. [7]

2.2.2 Fernerkundung

Wie der Name schon sagt, werden Fernerkundungsdaten aus der Entfernung vom untersuchten Objekt gesammelt. Diese Daten werden normalerweise von Sensoren gesammelt, die an Flugzeugen, Satelliten oder Drohnen angebracht sind. Einige Sensoren sammeln Bilder mit Kameras, die im Wesentlichen nach den gleichen Prinzipien arbeiten, die Sie in einer tragbaren Filmkamera oder einer digitalen Handykamera finden würden. Diese Kameras sammeln sichtbares Licht, das das menschliche Auge erkennen kann. Andere Sensoren erkennen verschiedene nicht sichtbare Teile des elektromagnetischen Spektrums, wie beispielsweise Infrarot (Wärme). Wieder andere können die Erde mit Technologien wie Radar aktiv scannen.


Satellitenbildgebung. Lackierung des Fernerkundungssatelliten Landsat 7. Beachten Sie, dass der Satellit nicht wirklich einen vierseitigen Lichtstrahl auf die Erdoberfläche wirft, dies ist nur eine künstlerische Freiheit. Stattdessen erfassen die Sensoren des Satelliten elektromagnetische Energie, die von der Erde reflektiert oder emittiert wird. [8]

Sie haben wahrscheinlich aus der Ferne erfasste Daten als Grundkarte für Google Maps oder andere Online-Karten gesehen. Diese Bilder werden auch für eine Vielzahl von Zwecken verwendet, insbesondere zur Überwachung von Umweltveränderungen in großen Gebieten wie der Entwaldung im Amazonas oder Ölverschmutzungen.


Satellitenbild eines Ölteppichs. Ein Bild aus dem Weltraum eines Ölteppichs des Deepwater Horizon-Unfalls im Golf von Mexiko (24. Mai 2010). [9]

Fotos werden auch von Flugzeugen und Drohnen gemacht. Eine der häufigsten Anwendungen ist das Fotografieren der Erdoberfläche. Diese Fotos werden dann von Kartographen in Bodenkarten umgewandelt.


Luftphotogrammetrie. Photogrammetrie ist das Verfahren, bei dem der Boden anhand von Fotos der Erde vermessen wird, um die für Karten erforderlichen Daten zu erhalten. [10]

Bei der Arbeit mit Karten verwenden Sie häufig Daten, die Sie nicht erstellt haben. Mithilfe von Metadaten können Sie feststellen, ob die Daten auf der Karte für Ihre Frage oder Ihr Projekt geeignet sind. Metadaten sind Daten über Daten. Wir sind normalerweise am meisten an räumlichen, zeitlichen und attributiven Datenmerkmalen interessiert, aber Metadaten gehen weiter und liefern Informationen wie:

  • Wer hat die Daten gesammelt?
  • Wie wurden die Daten erhoben und klassifiziert?
  • Wann wurden die Daten erhoben?
  • Wie genau sind die Daten?
  • Welche Auflösung haben die Daten? (Mehr dazu weiter unten!)

Seien Sie bei der Verwendung einer Karte vorsichtig, wenn Sie keine Metadaten finden können. Diese Vorsicht ist besonders wichtig, da Sie anhand von Metadaten beurteilen können, wie gut die Daten mit anderen Daten zusammenarbeiten können. Im Folgenden betrachten wir Probleme der Auflösung, Genauigkeit und Interoperabilität zwischen Datensätzen. Kartographen untersuchen diese Probleme und fügen sie dann den an eine Karte angehängten Metadaten hinzu.

Eine wichtige Form von Erhebungsdaten sind Volkszählungsdaten oder solche, die von nationalen Regierungen zu ihrer Bevölkerung erhoben werden. Wir verwenden das Beispiel der Volkszählungsdaten, die vom United States Census Bureau gesammelt wurden, da die Volkszählung die Hauptquelle für soziale Daten ist, die von Regierungen, gemeinnützigen Organisationen und Unternehmen verwendet werden. Diese Daten werden nach gut dokumentierten Verfahren erstellt und stehen in verschiedenen Maßstäben für das gesamte Land zur Verfügung. Schließlich bieten viele kostenlose Online-Mapping-Tools Volkszählungsdaten, die es ermöglichen, Kartierungskonzepte ohne rigoroses technisches Training zu erkunden.

2.4.1 Hintergrund der Volkszählung

Die US-Volkszählung wird alle zehn Jahre mit dem Ziel durchgeführt, jede Person im Land zu zählen, obwohl es, wie unten beschrieben, fast unmöglich ist, dieses Ziel zu erreichen. Die Volkszählung sammelt Informationen über Rasse, Alter und Wohnsituation der Bevölkerung. Der in der Verfassung festgelegte Hauptzweck der Volkszählung besteht darin, die Anzahl der Sitze jedes Bundesstaates im US-Repräsentantenhaus, der Legislative der Regierung, zu bestimmen. In Bundesstaaten, die zwischen den Volkszählungsjahren Sitze hinzugewonnen oder verloren haben, müssen dann die Grenzen der Wahlbezirke neu gezogen werden (wir werden uns in späteren Kapiteln genauer ansehen, wie die Neuwahl erfolgt und die räumlichen Herausforderungen des Prozesses). Volkszählungen bestimmen auch, wie Hunderte von Milliarden Dollar an Bundesmitteln für viele wichtige Zwecke verteilt werden, darunter Bildung, Gesundheitsversorgung, Umweltschutz, Transport und andere Formen der Bundeshilfe für Bundesstaaten und Städte.

Die erste US-Volkszählung, die 1791 von sechzehn US-Marshals und 650 Assistenten durchgeführt wurde, zählte rund 3,9 Millionen Menschen. Sie stellten nur wenige Fragen: die Zahl der freien Personen, die Zahl der Sklaven und das Geschlecht und die Rasse jedes Einzelnen.


Volkszählungsformular 1791. Dieses Formular für die erste Volkszählung in den Vereinigten Staaten wurde von einem Volkszählungsbeamten ausgefüllt, der einige Fragen stellte. [11]

1960, bei einer Bevölkerung von fast 180 Millionen, war es nicht mehr möglich, jeden Haushalt von einem Volkszählungsbeamten besuchen zu lassen. Stattdessen wurden jedem Haushalt Fragebögen zugesandt, und Zeitarbeitskräfte wurden bei den Haushalten, die nicht antworteten, persönlich nachverfolgt.


Volkszählungsformular 1960. Dies ist eine leere Kopie des Volkszählungsformulars von 1960, das an jeden Haushalt zum Ausfüllen geschickt wurde. [12]

An alle Haushalte gestellte Fragen umfassen nun die Anzahl der Personen nach Alter, Geschlecht, ethnischer Zugehörigkeit, Wohneigentum und Haushaltszusammensetzung. Zwischen 1940 und 2000 erhielt jeder sechste Haushalt auch eine ausführlichere „Langform“-Umfrage, in der Fragen zu einem viel breiteren Themenspektrum gestellt wurden, darunter Einkommen, Beruf, Wegdauer und Wehrdienst. Das Census Bureau verwendet diese Stichprobe dann, um die Merkmale der restlichen Bevölkerung zu schätzen.

Die Nachfrage nach zeitnaheren Sozialdaten führte zur Entwicklung des American Community Survey (ACS), der 2010 die lange Volkszählungserhebung ersetzte. Der ACS wird jedes Jahr durchgeführt, um häufiger „Schnappschüsse“ von demografischen, wirtschaftlichen und Wohneigenschaften der Bevölkerung. Allerdings erhalten nur 2-3 Millionen Haushalte die Erhebung pro Jahr (weniger als 2 % der Bevölkerung), was zu erheblichen statistischen Fehlern bei den Schätzungen für die Gesamtbevölkerung führt. Die Daten für die Volkszählung und das ACS werden von jedem Haushalt gesammelt, aber um die Privatsphäre zu wahren und die Daten einfacher zu verwenden, aggregiert das Census Bureau die Daten in größeren geografischen Gebieten.

Während Daten für eine Vielzahl unterschiedlicher geografischer Gebiete verfügbar sind, werden wir in diesem Kurs hauptsächlich mit Volkszählungsgebieten und Landkreisen arbeiten. Volkszählungsgebiete haben eine Bevölkerungsgröße zwischen 1.200 und 8.000 Menschen, mit einer optimalen Größe von 4.000 Menschen. Die Grenzen von Zählbezirken folgen im Allgemeinen umweltbedingten oder politischen Merkmalen, aber die räumliche Größe von Zählbezirken kann je nach Siedlungs- und Bevölkerungsdichte stark variieren. Die Grenzen und Formen von Volkszählungsgebieten werden mit dem Ziel gezeichnet, dass sie über einen langen Zeitraum ziemlich gleich bleiben, damit statistische Vergleiche von Volkszählung zu Volkszählung angestellt werden können.

2.4.2 Einschränkungen von Volkszählungsdaten

Die Volkszählung ist die umfassendste Quelle für demografische Informationen, die für die Vereinigten Staaten verfügbar ist, aber sie weist immer noch wichtige Einschränkungen auf.

Die Hauptherausforderung ist Genauigkeit und Unterzählen. Die Volkszählung versucht, eine Momentaufnahme zu machen, wie viele Menschen es am 1. April gibt und wo sie lebenst des Volkszählungsjahres. Die Methode der Datenerhebung geht davon aus, dass jede Person in einer Wohneinheit mit postalischer Adresse lebt und auf Umfragen korrekt reagiert. Das Census Bureau schätzte, dass bei seiner Zählung im Jahr 2010 etwa 10 Millionen Menschen vermisst wurden.


Volkszählung 2010. Die erste Aufzählung der Volkszählung 2010 fand in Noorvik, Alaska, statt. Ein früher Start ermöglicht es den Volkszählungsteilnehmern, abgelegene Dörfer zu erreichen, bevor die Bewohner nach dem Tauwetter im Frühjahr auf die Jagd gehen und fischen oder zu Warmwetterjobs reisen. [13]

Die Unterzählung ist nicht zufällig, da sie in bestimmten Gebieten und Teilpopulationen häufiger vorkommt. Diejenigen, die zum Zeitpunkt der Volkszählung obdachlos sind oder eine instabile Wohnung haben, werden oft vermisst. Diejenigen, die in abgelegenen ländlichen Gebieten wohnen, können per Post oder persönlich schwer zu erreichen sein. Es ist auch weniger wahrscheinlich, dass die Volkszählung Antworten von Personen erhält, die der Regierung misstrauen, beispielsweise von Personen, die befürchten, dass ihre Antworten von der Einwanderungsbehörde verwendet werden, um undokumentierte Familienmitglieder abzuschieben.

Da die Volkszählung nur alle zehn Jahre stattfindet, haben die Zählungen langfristige Folgen für Bundesländer und Städte. Die Genauigkeit der Zählungen kann in Städten mit knappen Kassen sehr umstritten sein. Zum Beispiel stellte Detroit die Ergebnisse der Volkszählung von 2010 in Frage, da für viele wichtige Quellen der Bundesfinanzierung 40.000 Menschen einen Bevölkerungsgrenzwert verfehlten. Da arme und marginalisierte Bevölkerungsgruppen zu den am schwersten zu zählenden zählen, sind die Distrikte mit dem größten Bedarf auch am stärksten von Unterfinanzierung und Unterrepräsentanz bedroht.

Abgesehen von Genauigkeitsproblemen bieten die Volkszählung und das ACS zwar einen umfangreichen Satz sozialer Daten, viele Themen werden jedoch nicht behandelt. Es gibt beispielsweise keine Fragen zu Religion, Konsumausgaben oder politischer Parteizugehörigkeit. Anzahl und Wortlaut der bei der Volkszählung gestellten Fragen haben sich im Laufe der Zeit geändert, und Daten sind nicht immer für alle Orte oder für alle geografischen Gebiete verfügbar.

Denken Sie daran, dass es viele andere soziale Umfragen gibt, die Informationen über verschiedene Attribute, Gebiete oder Zeiträume sammeln. Zum Beispiel führt die Association of Statisticians of American Religious Bodies alle 10 Jahre die „Religious Congregations and Membership Study“ (RCMS) durch, um Muster der Religionszugehörigkeit zu verfolgen. Kommunalverwaltungen sammeln Daten für Projekte in ihrer jeweiligen Region. Es gibt auch Volkszählungen, die in Ländern auf der ganzen Welt mit unterschiedlichem Detaillierungsgrad und Genauigkeit durchgeführt werden.

Bei der Auswahl von Daten zur Analyse eines bestimmten Problems sind einige Schlüsselkonzepte zu beachten: 1) Auflösung, 2) Genauigkeit und 3) Interoperabilität. Wir werden jedes dieser Konzepte in Bezug auf die drei Elemente von Geodaten (Ort, Attribute, Zeit) betrachten. Jedes dieser Konzepte kann unter dem Begriff Metadaten zusammengefasst werden, indem es sich um Informationen über Daten (oder Daten über Daten) handelt. Das Entwickeln und Verstehen von Metadaten beinhaltet einen Blick über die Grundlagen von „Daten“ in Bezug auf den räumlichen Standort, die gemessenen Attribute und die gesammelte Zeit.

2.5.1 Auflösung

Die Auflösung beschreibt den Umfang oder die Spezifität der von Ihnen untersuchten Daten. Es gibt drei Hauptarten der Auflösung – räumlich, attributiv und zeitlich. Eine höhere Auflösung entspricht kleineren Bereichen, über die Daten aggregiert werden, engeren Unterscheidungen zwischen Kategorien oder kürzeren Zeiten zwischen der Datenerfassung. Aber bevor wir uns mit Beispielen für die Auflösung im Zusammenhang mit der Kartierung sozialer Daten befassen, denken Sie über das Konzept in Bezug auf die alltägliche Technologie nach.

Räumliche Auflösung. Sie haben wahrscheinlich den Begriff „Auflösung“ gesehen, der verwendet wird, um die Qualität eines Computerbildschirms oder einer Handykamera zu beschreiben. Jedes Bild besteht aus vielen kleineren Quadraten oder Pixeln. Wenn die Pixel, aus denen das größere Bild besteht, klein sind, können mehr Details unterschieden werden und das Bild hat eine höhere Auflösung. Mit zunehmender Größe der quadratischen Pixel wird es schwieriger, kleine Details wie die Wassertropfen auf den Blütenblättern zu erkennen. Dies kann wichtig sein, wenn Sie ein Bild von einer Website kopieren und dann die Größe des Bildes ändern. Abhängig von der Auflösung des Originalbildes können Sie plötzlich Pixel sehen, die zuvor zu klein waren, um sie zu sehen.


Räumliche Auflösung. Vergleich höherer und niedrigerer Auflösung in einem Foto von Blättern (oben) oder in einem Raster (unten). [14]

Die räumliche Auflösung kann sich auch auf die Frage „Was ist die kleinste gemessene Flächeneinheit“ beziehen. Sie ähnelt der Pixelauflösung, außer dass die Karte oft nicht in gleich große Quadrate aufgeteilt wird. Stattdessen kann die Karte zwischen Verwaltungsgrenzen (wie Zählbezirken, Landkreisen oder Bundesstaaten) aufgeteilt werden, die unterschiedliche Formen und Landflächen aufweisen. Je größer der Bereich, über den Daten aggregiert wurden, desto geringer ist die Auflösung und desto schwieriger ist es, kleine Details in den Daten zu erkennen. In der Abbildung unten sind kleine Gebiete mit hoher Bevölkerungsdichte mit geringerer räumlicher Auflösung nicht sichtbar.


Auflösung der Volkszählungsdaten. Vergleich der nach Landkreisen aggregierten Daten zur Bevölkerungsdichte (links) mit den nach Volkszählungsbezirken aggregierten Daten (rechts). [15]

Betrachten Sie ein Beispiel. Wenn Sie versuchen würden, festzustellen, ob das Medianeinkommen in Ihrem Block in den letzten 4 Jahren gestiegen ist, aber die einzigen Daten, die Sie finden könnten, die Auflösung auf Postleitzahlenebene waren, wäre es schwierig, das Muster zu ermitteln. Postleitzahlen sind wesentlich größer als Blöcke. Änderungen des Medianeinkommens in anderen Teilen der Postleitzahl können das Geschehen in Ihrem Block verschleiern oder fälschlicherweise verbessern.

Attributionsauflösung befasst sich mit dem Grad, in dem zwischen Kategorien unterschieden wird. In viele Kategorien aufgeteilte Daten bieten detailliertere Unterscheidungen und damit eine höhere Attributauflösung. Stellen Sie sich zum Beispiel vor, Sie interessieren sich für Daten über das Alter von Personen. Wenn die Daten nur in zwei Kategorien gruppiert werden – Personen unter 18 Jahren und Personen, die über 18 Jahre alt sind – hätten die Daten eine geringe Attributauflösung. Im Vergleich dazu würde uns die Aufteilung der Altersgruppen in mehrere Kategorien (z. B. 0-18, 18-34, 34-64, 65+) eine höhere Auflösung bei der Zuordnung ergeben. Wenn Sie die Anzahl der Personen kennen müssen, die alt genug sind, um bei nationalen Wahlen wählen zu können, ist die Verwendung der Daten mit niedrigerer Auflösung ausreichend. Interessieren Sie sich jedoch für die Anzahl der Senioren, benötigen Sie eine höhere Datenauflösung.

Zeitliche Auflösung ist die Häufigkeit der Datenerhebung und geht im Wesentlichen auf die Frage ein, wie oft bzw. über welchen Zeitraum wird eine Messung durchgeführt? Im obigen Abschnitt haben wir festgestellt, dass das US Census Bureau alle zehn Jahre Daten erhebt, während das ACS jedes Jahr eine Umfrage durchführt. Die Volkszählung ist genauer als die ACS, da sie einen größeren Anteil der Bevölkerung berücksichtigt, jedoch auf Kosten einer gröberen zeitlichen Auflösung. Wie sich Ihre Nachbarschaft in einem Zeitraum von fünf Jahren demografisch verändert hat, lässt sich angesichts der zeitlichen Auflösung der Volkszählung nicht bestreiten, da die Volkszählung Ihnen nur alle zehn Jahre eine Momentaufnahme Ihrer Nachbarschaft liefert.

Zusammenfassend stellen Sie sich beim Betrachten von Daten folgende Fragen: Suchen Sie den richtigen Bereich für die gestellte Frage? Sind die Kategorien in den Daten spezifisch genug für Ihre Argumentation (oder müssen Sie Ihre Behauptungen erweitern)? Werden die Daten für den Zeitraum, den Sie analysieren möchten, häufig genug gesammelt?

2.5.2 Genauigkeit

Genauigkeit beschreibt, wie gut Daten auf einer Karte mit Objekten in der Welt übereinstimmen. Es gibt drei Hauptarten von Genauigkeit – räumlich, attributiv und zeitlich.

Räumliche Genauigkeit beantwortet die Frage, wie gut der Standort eines Objekts auf der Karte mit seinem Standort in der Welt übereinstimmt. Es gibt viele Gründe, warum die Standorte von etwas auf einer Karte nicht genau denen am Boden in der Realität entsprechen. Grenzen zwischen Ländern können falsch gezogen werden. Mit GPS markierte Punkte können von ihrer tatsächlichen Position verschoben werden, wenn das Signal durch Bäume oder hohe Gebäude blockiert wird. Die folgende Abbildung zeigt das Beispiel einer Person, deren Bewegungen in einem Fahrzeug mit GPS verfolgt werden. Die Karte scheint die Person zu zeigen, die durch mehrere Gebäude geht und dann über eine neunspurige Autobahn läuft. Es erscheint nur so auf den Karten aufgrund eines Fehlers bei der Erfassung der GPS-Messungen.


Räumliche Genauigkeit. Blaue Punkte markieren den Weg einer Person, die ein GPS-Ortungsgerät in einem Fahrzeug trägt. [16]

Attributgenauigkeit fragt, ob die über ein Objekt berichteten Eigenschaften für dieses Objekt in der Welt wahr sind. Attributungenauigkeiten können in Umfragedaten auftauchen, wenn Teilnehmer nicht antworten, die Anweisungen missverstehen oder absichtlich falsche Angaben machen. Ungenauigkeiten können auch auftreten, wenn Werte für einen kleinen Bereich basierend auf einer kleinen Anzahl von Antworten geschätzt werden. Denken Sie daran, dass das ACS jedes Jahr etwa 2 % der Bevölkerung befragt – 4 von 200 Personen – und dann die Merkmale der restlichen Bevölkerung aus ihren Antworten schätzt. Das ACS hat eine bessere Attribut- und Zeitauflösung als die Volkszählung (mehr Kategorien werden häufiger erhoben), aber die Volkszählung ist in dem Sinne genauer, dass sie mehr Personen zählt.

Zeitliche Genauigkeit beschäftigt sich damit, ob Details zu einem Objekt im Hinblick auf Veränderungen in der Welt aktuell sind. Während die Daten zum Zeitpunkt der Erfassung genau und vollständig sein können, können Details aufgrund von Veränderungen in der sozialen und physischen Landschaft bald ungenau sein. Beispielsweise werden die Objekte auf einer gedruckten Referenzkarte mit der Zeit weniger genau, wenn neue Straßen gebaut, entfernt oder Namensänderungen vorgenommen werden.


Zeitliche Genauigkeit. Statische Straßenkarten werden viel seltener aktualisiert als Google Maps. [17]

2.5.3 Interoperabilität

Interoperabilität beschreibt, wie gut zwei verschiedene Datensätze miteinander funktionieren. Es gibt drei Haupttypen von Interoperabilität – räumlich, attributiv und zeitlich.

Stellen Sie sich die folgenden Fragen: Vergleichen sie den gleichen Bereich? Verwenden sie dieselben Kategorien und definieren sie sie auf dieselbe Weise? Diese Fragen sind besonders relevant, wenn Daten verwendet werden, die von verschiedenen Organisationen oder über mehrere Zeiträume hinweg gesammelt wurden.

Räumliche Interoperabilität. Wie gut passen räumliche Einheiten zusammen? Dies ist die Frage, die die räumliche Interoperabilität betrifft. Postleitzahlen und Zählbezirke sind beispielsweise räumliche Einheiten, für die häufig Daten aggregiert werden, deren Grenzen jedoch selten gleich sind. Ein Zählbezirk kann in mehrere Postleitzahlen fallen und umgekehrt. Daten auf Postleitzahlenebene und Daten auf Zählbezirksebene weisen eine schlechte Interoperabilität auf, da sie keine Merkmale für dieselbe Personengruppe aufweisen.


Volkszählung Geographien. Volkszählung Geographien. Geografische Gebiete, für die das US Census Bureau Daten zur Verfügung stellt, von der Ebene der Bundesstaaten bis hin zu Blöcken. [18]

Attribut-Interoperabilität stellt die Frage: Wie gut stimmen die Kategorien zweier Datensätze überein? Bei der Volkszählung von 2010 konnten Einzelpersonen beispielsweise aus fünfzehn verschiedenen Rassenkategorien auswählen, mit der Option, mehrere Kategorien auszuwählen. Im Vergleich dazu wurden die Personen bei der Volkszählung von 1850 nur in drei Rassenkategorien eingeteilt: „Weiß“, „Schwarz“ oder „Mulatte“. Diese beiden Datensätze weisen eine schlechte Attributinteroperabilität auf, da sie eine sehr unterschiedliche Attributauflösung aufweisen und keine übereinstimmenden Kategorien aufweisen.


Volkszählungsformular 2010 über das Rennen. Bei der Volkszählung 2010 konnten Einzelpersonen aus fünfzehn verschiedenen Rassenkategorien auswählen, mit der Möglichkeit, mehrere Kategorien auszuwählen. [19]

Sogar eine Kategorie, die zwischen zwei Volkszählungsjahren einen ähnlichen Namen hat, kann unterschiedliche Attribute messen. Die bei der Volkszählung von 1870 verwendete Kategorie „Chinesen“ wurde auf Personen aus allen Teilen Asiens und nicht nur auf China angewendet. Es ist daher nicht interoperabel mit „Chinesisch“, wie es bei der Volkszählung von 2010 verwendet wurde.

Zeitliche Interoperabilität. Wie gut stimmen die gemeldeten Zeiten überein? Die zeitliche Interoperabilität ist von größter Bedeutung, wenn Sie argumentieren, wie die Dinge zu einem bestimmten Zeitpunkt sind, Ihre Daten jedoch nicht von demselben Zeitpunkt stammen. Stellen Sie sich zum Beispiel vor, Sie arbeiten bei einer gemeinnützigen Organisation, die versucht, die Anzahl der Kinder im Alter von 0 bis 5 Jahren mit der Anzahl und dem Standort von Kindertageseinrichtungen in einem Gebiet zu vergleichen. Die genaueste Zahl der Kinder stammt aus der Volkszählung von 2010, aber Ihre Organisation verfügt über Informationen über Kindertagesstätten, die 2015 gesammelt wurden. Diese beiden Datensätze weisen eine schlechte zeitliche Interoperabilität auf, da keine Kinder, die zum Zeitpunkt der Volkszählung 0 bis 5 Jahre alt waren, noch darin enthalten wären Altersgruppe im Jahr 2015. Anhand dieser Daten lässt sich nur schwer feststellen, ob Kindertagesstätten in geeigneter Weise angesiedelt sind. Wie unten beschrieben, müssen Sie sich manchmal sowohl um die räumliche als auch um die zeitliche Interoperabilität kümmern!


Räumliche und zeitliche Interoperabilität. Die Grenzen für verschiedene Volkszählungsjahre in Südafrika stimmen zwischen den Jahren nicht überein, da im Laufe der Zeit neue Regionen hinzugefügt wurden. Eine Lösung besteht darin, eine neue Karte zu erstellen, die Regionen gruppiert; Diese integrierte Geographie ermöglicht den Vergleich von Daten zwischen Karten. [20]

Zusammenfassend fragen Sie sich bei der Betrachtung mehrerer Datensätze: Ist es sinnvoll, diese Daten zu vergleichen? Werden die für denselben Bereich generierten Daten mit denselben räumlichen Einheiten erzeugt? Werden die Attributkategorien von den Organisationen, die die Daten erstellt haben, im Laufe der Zeit auf dieselbe Weise definiert? Wurden die Daten über einen vergleichbaren Zeitraum erstellt?

Es gibt viele Softwareprogramme zum Erstellen von Karten und die meisten bieten ihren Benutzern eine Reihe von Daten. Während diese Programme traditionell für Desktop-Computer entwickelt wurden, ermöglichen eine große und wachsende Zahl von Websites und Webanwendungen den Menschen, Karten online anzuzeigen und zu erstellen. Diese Karten und Werkzeuge wurden mit dem Ziel entwickelt, Daten für Forscher, Politiker und die Öffentlichkeit zugänglicher zu machen.

Social Explorer ist ein Beispiel für ein Online-Mapping-Tool, das entwickelt wurde, um den Zugriff und die Verwendung von Daten des US Census Bureau zu erleichtern. Denken Sie daran, dass viele Organisationen sich darauf konzentrieren, Karten online zu stellen und keine Rolle bei der Erfassung der zugrunde liegenden Daten spielen. Stattdessen fungieren Online-Karten und Kartentools wie Bibliotheken, indem sie Informationen aus mehreren Quellen zusammenführen. Beachten Sie, dass Social Explorer nicht die Quelle der zugeordneten Daten ist. Es ist unser Werkzeug zur Untersuchung von Daten, die vom Census Bureau erstellt wurden.

Wenn Sie sich eine Karte ansehen, ist es wichtig, darüber nachzudenken, wie die visualisierten Daten generiert wurden. Wer hat die Karte erstellt? Wie wurden die zugrunde liegenden Daten erhoben? Welche Fragen wurden wem gestellt? Wie genau ist die Karte? Was fehlt? Selbst die am sorgfältigsten erstellten Daten enthalten Fehler und haben einen Kontext innerhalb einer sozialen, politischen und kulturellen Landschaft. Um ein verantwortungsbewusster Kartenbenutzer und Kartenhersteller zu sein, müssen Sie überlegen, was Sie angesichts der Auflösung, Genauigkeit und Interoperabilität der verfügbaren Daten zeigen können und was nicht. Es ist wichtig, die Quellen der Daten anzugeben, die Sie in Ihre Karte aufnehmen, damit Ihr Publikum zusätzliche Informationen finden kann.

Wenn wir uns damit befassen, wie man Daten symbolisiert und vereinfacht, um eine ansprechende Karte zu erstellen und die räumlichen Beziehungen von Daten zu analysieren, denken Sie daran: Eine Karte kann nur so gut sein wie die Daten, die darin enthalten sind.

Ressourcen

For more information about the history of census questions and procedures, and what the census does and does not ask:

  • US Census
  • Social Explorer

For more information about GPS:

  • Pennsylvania State University Geography 482: The Nature of Geographic Information
  • Adam Goetsch at USC


Big data in geoscience

I was looking for something to do in London this week. Tempted by the Deep-water contintental margins meeting in Piccadilly, I instead took the opportunity to attend a different kind of conference. The media group O'Reilly, led by the inspired Tim O'Reilly, organizes conferences. They're known for being energetic, quirky, and small-company-friendly. I wanted to see one, so I came to Strata.

Strata is the conference for big data, one of the woolliest buzzwords in computer science today. Some people are skeptical that it's anything other than a new way to provoke fear and uncertainty in IT executives, the only known way to make them spend money. Indeed, Google "big data" and the top 5 hits are: Wikipedia (obvsly), IBM, McKinsey, Oracle, and EMC. It might be hype, but all this attention might lead somewhere good.

We're all big data scientists

Geoscientists, especially geophysicists, are unphased by the concept of big data. The acquisition data from a 3D survey can easily require 10TB (10,240GB) or even 100TB of storage. The data must be written, read, processed, and re-written dozens of times during processing, then delivered, loaded, and interpreted. In geoscience, big data is normal data.

So it's great that big data problems are being hacked on by thousands of developers, researchers, and companies that, until about a year ago, were only interested in games and the web. About 99% of them are not working on problems in geophysics or petroleum, but there will be insight and technology that will benefit our industry.

It's not just about data management. Some of the most creative data scientists in the world are at this conference. People are showing dense, and sometimes beautiful, visualizations of giant datasets, like the transport displays by James Cheshire's research group at UCL (right). I can't wait to show some of these people a SEG-Y or LAS file and, unencumbered by our curmudgeonly tradition of analog display metaphors, see how they would display it.