Welche Auswirkung hat die Standardabweichung auf die Anzeige von DEM-Rastern?

Ich muss erklären, warum ArcGIS beim Symbolisieren von Rastern mit der Methode Stretch die Funktion "Standardabweichung" anbietet.

Die Standardabweichung ist ein Maß für die Streuung von Zahlen und wird durch die Quadratwurzel der Varianz berechnet. Die Varianz der quadrierten Differenzen vom Mittelwert und dem "n" in der ArcGIS-Einstellung bezieht sich auf die Grundgesamtheit.

Was passiert also wirklich? Ersetzt ArcGIS jeden Height-Wert durch einen StdDev-Wert, der von benachbarten "n" Pixeln berechnet wird? Das würde bedeuten, dass die Farben die durchschnittliche "Ausbreitung" der Höhen repräsentieren und nicht die tatsächlichen Höhenwerte selbst.

Bin ich hier auf dem richtigen Weg?

Wenn Ihre Werte sind Normalverteilt, dann liegen ungefähr 68 %, 95 % und 99,7 % der Werte innerhalb von 1, 2 bzw. 3 Standardabweichungen, siehe hier. Wenn Sie also Ihre Werte der Farbkarte mit SD(2) dehnen, alle von die Werte, die unter 2,5% liegen, sind schwarz und alle über 97,5% sind weiß (natürlich abhängig von Ihrer Farbskala) - dies ermöglicht es Ihnen, die Variation der häufigeren Werte zu sehen, ohne vom absoluten Maximum überschwemmt zu werden und Mindest.

Angenommen, Sie sehen sich eine Höhenkarte an, die Strukturen enthält und Sie haben einen einzelnen sehr hohen Schornstein und einen einzelnen, tiefen Brunnen, der in der Karte enthalten ist, dies kann zu einem Farbschritt von 50 Fuß führen, wenn sich der Rest Ihrer Strukturen alle darin befindet Bereich, SD schneidet diese beiden Funktionen ab, sodass Sie die Variation des Rests sehen können.

P – WERT, EINE ECHTE PRÜFUNG DER STATISTISCHEN BEDEUTUNG? EIN VORSICHTSHINWEIS

Obwohl es nicht die Absicht der Begründer des Signifikanztests und des Hypothesentests ist, die beiden Ideen so zu verschränken, als ob sie sich ergänzen würden, hat die unbequeme Verschmelzung der beiden Praktiken zu einer kohärenten, bequemen, unumstößlichen und falsch interpretierten Praxis unsere Standardstatistiken überschattet Lehrbücher und medizinische Fachzeitschriften. Dieses Papier untersucht Faktoren, die zu dieser Praxis beitragen, verfolgt die historische Entwicklung der Fisherian- und Neyman-Pearsonian-Schulen der Hypothesenprüfung, deckte die Irrtümer und den ungewöhnlichen und gemeinsamen Ansatz für das Problem auf. Schließlich gibt es Empfehlungen, was zu tun ist, um die Situation zu beheben.

2 Antworten 2

Als Fortsetzung von BruceETs Erklärung ist zu beachten, dass, wenn wir den unverzerrten Schätzer der Standardabweichung jeder Stichprobe berechnen, nämlich $s = sqrt Summe_^n (x_i - ar x)^2>,$ und das ist, was bereitgestellt wird, dann beachte, dass für Beispiele $oldsymbol x = (x_1, ldots, x_n)$ , $oldsymbol y = (y_1, ldots, y_m)$ , sei $oldsymbol z = (x_1, ldots, x_n, y_1, ldots, y_m)$ die kombinierte Stichprobe, daher ist der kombinierte Stichprobenmittelwert $ar z = frac<1> left(sum_^n x_i + sum_^m y_i ight) = frac.$ Folglich ist die kombinierte Stichprobenvarianz $s_z^2 = frac<1> left(sum_^n (x_i - ar z)^2 + sum_^m (y_i - ar z)^2 ight),$ wobei zu beachten ist, dass der kombinierte Mittelwert verwendet wird. Um dies in Form von $s_x^2$ und $s_y^2$ ausdrücken zu können, müssen wir natürlich die Quadratsummen zerlegen, zum Beispiel $(x_i - ar z)^2 = (x_i - ar x + ar x - ar z)^2 = (x_i - ar x)^2 + 2(x_i - ar x)(ar x - ar z) + (ar x - ar z)^2,$ also $sum_^n (x_i - ar z)^2 = (n-1)s_x^2 + 2(ar x - ar z)sum_^n (x_i - ar x) + n(ar x - ar z)^2.$ Aber der mittlere Term verschwindet, also ergibt sich $s_z^2 = frac<(n-1)s_x^2 + n(ar x - ar z)^2 + (m-1)s_y^2 + m(ar y - ar z)^2>.$ Vereinfacht ergibt sich $n(ar x - ar z)^2 + m(ar y - ar z)^2 = frac,$ also wird die Formel $s_z^2 = frac<(n-1) s_x^2 + (m-1) s_y^2> + frac<(n+m)(n+m-1)>.$ Dieser zweite Term ist der erforderliche Korrekturfaktor.

Weder der Vorschlag in einer früheren (jetzt gelöschten) Antwort noch der Vorschlag im folgenden Kommentar ist für die Stichprobenstandardabweichung der kombinierten Stichprobe richtig.

Bekannte Daten als Referenz.: Erstens ist es hilfreich, aktuelle Daten zur Verfügung zu haben, um die Ergebnisse zu überprüfen. Daher habe ich Stichproben mit den Größen $n_1 = 137$ und $n_2 = 112$ simuliert, die ungefähr den in der Frage angegebenen entsprechen.

Mittelwert der kombinierten Stichprobe: Sie sagen 'das Mittel ist einfach', also schauen wir uns das zuerst an. Der Stichprobenmittelwert $ar X_c$ der kombinierten Stichprobe kann als Mittelwert $ar X_1$ bzw. $ar X_2$ der ersten bzw. zweiten Stichprobe wie folgt ausgedrückt werden. Sei $n_c = n_1 + n_2$ die Stichprobengröße der kombinierten Stichprobe und die Notation mit Klammern in tiefgestellten Indizes bezeichne die Indizes der jeweiligen Stichproben.

Lassen Sie uns das in R anhand meines simulierten Datensatzes überprüfen (vorerst ignorieren Sie die Standardabweichungen):

Vorgeschlagene Formeln geben falsche kombinierte SD: Hier ist eine Demonstration, dass keine der vorgeschlagenen Formeln $S_c = 34.025$ das kombinierte Beispiel findet:

Nach der ersten Formel $S_a = sqrt = 46.165 e 34.025.$ Diese Formel ist unter anderem deshalb falsch, weil sie die unterschiedlichen Stichprobengrößen $n_1$ und $n_2.$ . nicht berücksichtigt

Nach der zweiten Formel gilt $S_b = sqrt <(n_1-1)S_1^2 + (n_2 -1)S_2^2>= 535,82 e 34.025.$

Um fair zu sein, die Formel $S_b^prime=sqrt> = 34.093 e 34.029$ ist sinnvoller. Dies ist die Formel für die „gepoolte Standardabweichung“ in einem gepoolten t-Test mit 2 Stichproben. Wenn wir zwei Stichproben aus Populationen mit unterschiedlichen Mittelwerten haben, ist dies ein vernünftiger schätzen der (angenommenen) gemeinsamen Standardabweichung der Grundgesamtheit $sigma$ der beiden Stichproben. Es ist jedoch keine korrekte Formel für die Standardabweichung $S_c$ der kombinierten Stichprobe.

Methode zur korrekten kombinierten SD: Es ist möglich, $S_c$ aus $n_1, n_2, ar X_1, ar X_2, S_1,$ und $S_2 zu finden. Ich werde einen Hinweis geben, wie dies gemacht werden kann. Schauen wir uns zunächst die Stichprobenvarianzen an, um Quadratwurzelzeichen zu vermeiden. Wir haben auf der rechten Seite alles, was wir brauchen, außer$sum_ <[c]>X_i^2 = sum_ <[1]>X_i^2 + sum_ <[2]>X_i^2.$Die beiden Terme in dieser Summe erhält man für$i = 1,2$aus$n_i, ar X_i$und$S_c^2$durch Auflösen nach$sum_<[i]>X_i^2$in einer Formel analog zu zuletzt angezeigte Gleichung. [Im folgenden Code kürzen wir diese Summe als$Q_c = sum_ <[c]>X_i^2 = Q_1 + Q_2.$ab] Obwohl etwas chaotisch, wird dieser Prozess des Erhaltens kombinierter Stichprobenvarianzen (und damit kombinierter Stichproben-SDs) in vielen Statistikprogrammen verwendet, insbesondere wenn Archivinformationen mit einer nachfolgenden Stichprobe aktualisiert werden. Numerische Überprüfung der korrekten Methode: Der folgende Code überprüft, dass diese Formel$S_c = 34.02507,$ergibt, was das Ergebnis ist, das wir oben direkt aus dem kombinierten Beispiel erhalten haben. Inhalt Populationsstandardabweichung der Noten von acht Schülern Bearbeiten Angenommen, die gesamte interessierende Population besteht aus acht Schülern in einer bestimmten Klasse. Für eine endliche Menge von Zahlen wird die Standardabweichung der Grundgesamtheit ermittelt, indem die Quadratwurzel des Mittelwerts der quadrierten Abweichungen der Werte, abgezogen von ihrem Mittelwert, gezogen wird. Die Noten einer Klasse von acht Schülern (d. h. einer statistischen Grundgesamtheit) sind die folgenden acht Werte: Diese acht Datenpunkte haben den Mittelwert (Durchschnitt) von 5: Berechnen Sie zunächst die Abweichungen jedes Datenpunkts vom Mittelwert und quadrieren Sie das Ergebnis jedes einzelnen: Die Varianz ist der Mittelwert dieser Werte: und der Population Die Standardabweichung ist gleich der Quadratwurzel der Varianz: Diese Formel ist nur gültig, wenn die acht Werte, mit denen wir begonnen haben, die vollständige Grundgesamtheit bilden. Wenn es sich bei den Werten stattdessen um eine Zufallsstichprobe handelt, die aus einer großen Elternpopulation gezogen wurde (z. B. waren es 8 Schüler, die zufällig und unabhängig aus einer Klasse von 2 Millionen ausgewählt wurden), dann dividiert man durch 7 (was nein − 1) statt 8 (das ist nein) im Nenner der letzten Formel, und das Ergebnis ist s = 32 / 7 ≈ 2,1. >approx 2.1.> In diesem Fall würde das Ergebnis der ursprünglichen Formel als Stichprobe Standardabweichung und bezeichnet mit so statt . Dividieren durch nein − 1 statt by nein gibt eine unverzerrte Schätzung der Varianz der größeren Elternpopulation. Dies ist bekannt als Bessels Korrektur. [5] [6] Der Grund dafür ist grob, dass die Formel für die Stichprobenvarianz auf der Berechnung von Unterschieden der Beobachtungen vom Stichprobenmittelwert beruht und der Stichprobenmittelwert selbst so konstruiert wurde, dass er den Beobachtungen so nahe wie möglich kommt, also einfach dividieren durch nein würde die Variabilität unterschätzen. Standardabweichung der durchschnittlichen Körpergröße für erwachsene Männer Bearbeiten Wenn die interessierende Grundgesamtheit annähernd normalverteilt ist, gibt die Standardabweichung Auskunft über den Anteil der Beobachtungen über oder unter bestimmten Werten. Zum Beispiel beträgt die durchschnittliche Körpergröße erwachsener Männer in den Vereinigten Staaten etwa 70 Zoll (177,8 cm), mit einer Standardabweichung von etwa 3 Zoll (7,62 cm). Dies bedeutet, dass die meisten Männer (etwa 68 %, bei einer Normalverteilung angenommen) eine Körpergröße innerhalb von 7,62 cm (3 Zoll) vom Mittelwert (170,18 – 185,42 cm) haben – eine Standardabweichung – und fast alle Männer ( etwa 95%) haben eine Höhe innerhalb von 6 Zoll (15,24 cm) vom Mittelwert (64–76 Zoll (162,56–193,04 cm)) – zwei Standardabweichungen. Wenn die Standardabweichung null wäre, wären alle Männer genau 177,8 cm groß. Wenn die Standardabweichung 20 Zoll (50,8 cm) wäre, hätten Männer viel variablere Körpergrößen mit einem typischen Bereich von etwa 50-90 Zoll (127-228,6 cm). Drei Standardabweichungen machen 99,7 % der untersuchten Stichprobenpopulation aus, vorausgesetzt, die Verteilung ist normal oder glockenförmig (siehe die Regel 68-95-99,7 oder die empirische Regel, für mehr Informationen). Lassen μ der Erwartungswert (der Durchschnitt) der Zufallsvariablen sein X mit Dichte f(x): Die Standardabweichung σ von X ist definiert als In Wörtern ist die Standardabweichung die Quadratwurzel der Varianz von X. Die Standardabweichung einer Wahrscheinlichkeitsverteilung ist dieselbe wie die einer Zufallsvariablen mit dieser Verteilung. Nicht alle Zufallsvariablen haben eine Standardabweichung. Wenn die Verteilung fette Schwänze bis ins Unendliche hat, existiert die Standardabweichung möglicherweise nicht, da das Integral möglicherweise nicht konvergiert. Die Normalverteilung hat Ausläufer, die ins Unendliche gehen, aber ihr Mittelwert und ihre Standardabweichung existieren, weil die Ausläufer schnell genug abnehmen. Die Pareto-Verteilung mit dem Parameter α ∈ ( 1 , 2 ] hat einen Mittelwert, aber keine Standardabweichung (die Standardabweichung ist grob gesagt unendlich). Die Cauchy-Verteilung hat weder has ein Mittelwert noch eine Standardabweichung. Diskrete Zufallsvariable Bearbeiten In dem Fall, wo X nimmt Zufallswerte aus einem endlichen Datensatz data x1, x2, . xNein, wobei jeder Wert die gleiche Wahrscheinlichkeit hat, ist die Standardabweichung Wenn die Werte nicht gleiche Wahrscheinlichkeiten haben, sondern unterschiedliche Wahrscheinlichkeiten, sei x1 Wahrscheinlichkeit haben p1, x2 Wahrscheinlichkeit haben p2, . xNein Wahrscheinlichkeit haben pNein. In diesem Fall beträgt die Standardabweichung Kontinuierliche Zufallsvariable Bearbeiten und wobei die Integrale bestimmte Integrale sind, die für genommen werden x über die Menge der möglichen Werte der Zufallsvariablen reichen X. Im Fall einer parametrischen Verteilungsfamilie kann die Standardabweichung durch die Parameter ausgedrückt werden. Zum Beispiel bei der Log-Normalverteilung mit Parametern μ und σ 2 , die Standardabweichung ist In Fällen (z. B. bei standardisierten Tests) kann die Standardabweichung einer gesamten Population ermittelt werden, in denen jedes Mitglied einer Population untersucht wird. In Fällen, in denen dies nicht möglich ist, wird die Standardabweichung σ wird geschätzt, indem eine Zufallsstichprobe aus der Grundgesamtheit untersucht und eine Statistik der Stichprobe berechnet wird, die als Schätzung der Grundgesamtheitsstandardabweichung verwendet wird. Eine solche Statistik wird als Schätzer bezeichnet, und der Schätzer (oder der Wert des Schätzers, nämlich die Schätzung) wird als Stichprobenstandardabweichung bezeichnet und mit bezeichnet so (eventuell mit Modifikatoren). Anders als bei der Schätzung des Populationsmittelwerts, für den der Stichprobenmittelwert ein einfacher Schätzer mit vielen wünschenswerten Eigenschaften (unverzerrt, effizient, maximale Wahrscheinlichkeit) ist, gibt es keinen einzigen Schätzer für die Standardabweichung mit all diesen Eigenschaften und eine unverzerrte Schätzung von Standardabweichung ist ein sehr technisch kompliziertes Problem. Meistens wird die Standardabweichung anhand des . geschätzt korrigierte Standardabweichung der Stichprobe (mit Nein − 1), unten definiert, und dies wird oft als "Stichprobenstandardabweichung" bezeichnet, ohne Qualifizierer. Andere Schätzer sind jedoch in anderer Hinsicht besser: der unkorrigierte Schätzer (mit Nein) ergibt einen geringeren mittleren quadratischen Fehler, während . verwendet wird Nein − 1,5 (für die Normalverteilung) eliminiert den Bias fast vollständig. Unkorrigierte Standardabweichung der Stichprobe Bearbeiten Die Formel für die Population Standardabweichung (einer endlichen Grundgesamtheit) kann auf die Stichprobe angewendet werden, wobei die Stichprobengröße als Grundgesamtheit verwendet wird (obwohl die tatsächliche Grundgesamtheit, aus der die Stichprobe gezogen wird, viel größer sein kann). Dieser Schätzer, bezeichnet mit soNein, ist bekannt als der unkorrigierte Standardabweichung der Stichprobe, oder manchmal die Standardabweichung der Probe (als Gesamtbevölkerung betrachtet) und ist wie folgt definiert: [7] Dies ist ein konsistenter Schätzer (er konvergiert in der Wahrscheinlichkeit zum Populationswert, wenn die Anzahl der Stichproben gegen Unendlich geht) und ist die Maximum-Likelihood-Schätzung, wenn die Population normalverteilt ist. [ Zitat benötigt ] Dies ist jedoch ein verzerrter Schätzer, da die Schätzungen im Allgemeinen zu niedrig sind. Der Bias nimmt mit wachsender Stichprobengröße ab und sinkt mit 1/Nein, und ist daher am signifikantesten für kleine oder mittlere Stichprobengrößen für N > 75 der Bias liegt unter 1 %. Bei sehr großen Stichprobengrößen ist die unkorrigierte Stichprobenstandardabweichung im Allgemeinen akzeptabel. Dieser Schätzer hat auch einen einheitlich kleineren mittleren quadratischen Fehler als die korrigierte Standardabweichung der Stichprobe. Korrigierte Standardabweichung der Stichprobe Bearbeiten Wenn die verzerrte Stichprobenvarianz (das zweite zentrale Moment der Stichprobe, das eine nach unten verzerrte Schätzung der Populationsvarianz ist) wird verwendet, um eine Schätzung der Standardabweichung der Population zu berechnen, das Ergebnis ist Hier führt das Ziehen der Quadratwurzel durch die Jensen-Ungleichung aufgrund der konkaven Funktion der Quadratwurzel zu einer weiteren Verzerrung nach unten. Der Bias in der Varianz lässt sich leicht korrigieren, aber der Bias aus der Quadratwurzel ist schwieriger zu korrigieren und hängt von der fraglichen Verteilung ab. Ein unvoreingenommener Schätzer für die Abweichung ergibt sich durch Anwendung der Bessel-Korrektur unter Verwendung von Nein − 1 statt Nein die nachgeben unverzerrte Stichprobenvarianz, bezeichnet so 2 : Dieser Schätzer ist unverzerrt, wenn die Varianz vorhanden ist und die Stichprobenwerte unabhängig voneinander mit Ersetzung gezogen werden. Nein − 1 entspricht der Anzahl der Freiheitsgrade im Vektor der Abweichungen vom Mittelwert, ( x 1 − x ¯ , … , x n − x ¯ ) . -<ar >,Punkte,x_-<ar >).> Das Ziehen von Quadratwurzeln führt wieder zu Verzerrungen (da die Quadratwurzel eine nichtlineare Funktion ist, die nicht mit der Erwartung kommutiert), was zu korrigierte Standardabweichung der Stichprobe, bezeichnet durch s: [2] Wie oben erklärt, während so 2 ist ein unverzerrter Schätzer für die Populationsvarianz, so ist immer noch ein verzerrter Schätzer für die Standardabweichung der Grundgesamtheit, wenn auch deutlich weniger verzerrt als die unkorrigierte Standardabweichung der Stichprobe. Dieser Schätzer wird häufig verwendet und allgemein einfach als "Stichprobenstandardabweichung" bezeichnet. Der Bias kann bei kleinen Stichproben immer noch groß sein (Nein weniger als 10). Mit zunehmender Stichprobengröße nimmt der Bias-Wert ab. Wir erhalten mehr Informationen und den Unterschied zwischen 1 N >> und 1 N − 1 >> wird kleiner. Unverzerrte Standardabweichung der Stichprobe Bearbeiten Für die unverzerrte Schätzung der Standardabweichung gibt es im Gegensatz zu Mittelwert und Varianz keine Formel, die über alle Verteilungen hinweg funktioniert. Stattdessen, so wird als Basis verwendet und mit einem Korrekturfaktor skaliert, um eine unverzerrte Schätzung zu erhalten. Für die Normalverteilung ist ein erwartungstreuer Schätzer gegeben durch so/c4, wobei der Korrekturfaktor (der von abhängt Nein) wird in Form der Gamma-Funktion angegeben und ist gleich: Dies liegt daran, dass die Stichprobenverteilung der Stichprobenstandardabweichung einer (skalierten) Chi-Verteilung folgt und der Korrekturfaktor der Mittelwert der Chi-Verteilung ist. Eine Näherung kann durch Ersetzen gegeben werden Nein − 1 mit Nein − 1,5, ergibt: Der Fehler in dieser Näherung fällt quadratisch (als 1/Nein 2 ) und eignet sich für alle bis auf kleinste Proben oder höchste Präzision: für Nein = 3 ist der Bias gleich 1,3 % und für Nein = 9 beträgt der Bias bereits weniger als 0,1%. Für andere Verteilungen hängt die richtige Formel von der Verteilung ab, aber als Faustregel gilt die weitere Verfeinerung der Näherung: wo γ2 bezeichnet die Bevölkerungsüberschuss-Kurtosis. Die überschüssige Kurtosis kann entweder für bestimmte Verteilungen im Voraus bekannt sein oder aus den Daten geschätzt werden. [ Zitat benötigt ] Konfidenzintervall einer abgetasteten Standardabweichung Bearbeiten Die Standardabweichung, die wir durch das Abtasten einer Verteilung erhalten, ist selbst nicht absolut genau, sowohl aus mathematischen Gründen (hier erklärt durch das Konfidenzintervall) als auch aus praktischen Gründen der Messung (Messfehler). Der mathematische Effekt kann durch das Konfidenzintervall oder CI beschrieben werden. Um zu zeigen, wie eine größere Stichprobe das Konfidenzintervall schmaler macht, betrachten Sie die folgenden Beispiele: Eine kleine Population von Nein = 2 hat nur 1 Freiheitsgrad zum Schätzen der Standardabweichung. Das Ergebnis ist, dass ein 95 %-KI der SD von 0,45 × SD bis 31,9 × SD reicht. Die Faktoren hier sind wie folgt: Eine größere Bevölkerung von Nein = 10 hat 9 Freiheitsgrade zum Schätzen der Standardabweichung. Dieselben Berechnungen wie oben geben uns in diesem Fall ein 95 %-KI von 0,69 × SD bis 1,83 × SD. Selbst bei einer Stichprobenpopulation von 10 kann die tatsächliche SD immer noch fast einen Faktor 2 höher sein als die abgetastete SD. Für eine Stichprobenpopulation N=100 ist dies ein Wert von 0,88 × SD bis 1,16 × SD. Um sicherer zu sein, dass die abgetastete SD nahe der tatsächlichen SD liegt, müssen wir eine große Anzahl von Punkten abtasten. Dieselben Formeln können verwendet werden, um Konfidenzintervalle für die Varianz von Residuen aus einer Anpassung der kleinsten Quadrate nach der Standardnormaltheorie zu erhalten, wobei k ist nun die Anzahl der Freiheitsgrade für Fehler. Grenzen der Standardabweichung Bearbeiten Für eine Reihe von Nein > 4 Daten, die einen Wertebereich umfassen R, eine obere Schranke der Standardabweichung so wird gegeben von s = 0,6R. [9] Eine Schätzung der Standardabweichung für Nein > 100 als annähernd normal angenommene Daten ergeben sich aus der Heuristik, dass 95 % der Fläche unter der normalen Kurve ungefähr zwei Standardabweichungen zu beiden Seiten des Mittelwerts liegen, so dass mit 95 % Wahrscheinlichkeit der gesamte Wertebereich R stellt vier Standardabweichungen dar, so dass s ≈ R/4. Diese sogenannte Bereichsregel ist bei der Schätzung des Stichprobenumfangs nützlich, da der Bereich möglicher Werte einfacher zu schätzen ist als die Standardabweichung. Andere Teiler K(N) des Bereichs, so dass s ≈ R/K(N) sind für andere Werte von verfügbar Nein und für Nicht-Normalverteilungen. [10] Die Standardabweichung ist bei Ortsveränderungen invariant und skaliert direkt mit der Skala der Zufallsvariablen. Also für eine Konstante c und Zufallsvariablen X und Ja: Die Standardabweichung der Summe zweier Zufallsvariablen kann auf ihre individuellen Standardabweichungen und die Kovarianz zwischen ihnen bezogen werden: Die Berechnung der Summe der quadrierten Abweichungen kann auf direkt aus den Daten berechnete Momente bezogen werden. In der folgenden Formel wird der Buchstabe E als erwarteter Wert interpretiert, d. h. als Mittelwert. Die Standardabweichung der Stichprobe kann wie folgt berechnet werden: Für eine endliche Population mit gleichen Wahrscheinlichkeiten an allen Punkten gilt , was bedeutet, dass die Standardabweichung gleich der Quadratwurzel der Differenz zwischen dem Durchschnitt der Quadrate der Werte und dem Quadrat des Durchschnittswertes ist. Siehe Berechnungsformel für die Varianz zum Beweis und für ein analoges Ergebnis für die Stichprobenstandardabweichung. Eine große Standardabweichung weist darauf hin, dass die Datenpunkte weit vom Mittelwert abweichen können, und eine kleine Standardabweichung bedeutet, dass sie eng um den Mittelwert geclustert sind. Zum Beispiel hat jede der drei Populationen <0, 0, 14, 14>, <0, 6, 8, 14> und <6, 6, 8, 8> einen Mittelwert von 7. Ihre Standardabweichungen sind 7, 5 , bzw. 1. Die dritte Grundgesamtheit hat eine viel kleinere Standardabweichung als die anderen beiden, da ihre Werte alle nahe bei 7 liegen. Diese Standardabweichungen haben die gleichen Einheiten wie die Datenpunkte selbst. Wenn beispielsweise der Datensatz <0, 6, 8, 14> das Alter einer Population von vier Geschwistern in Jahren darstellt, beträgt die Standardabweichung 5 Jahre. Als weiteres Beispiel kann die Population <1000, 1006, 1008, 1014> die von vier Athleten zurückgelegten Distanzen, gemessen in Metern, darstellen. Es hat einen Mittelwert von 1007 Metern und eine Standardabweichung von 5 Metern. Die Standardabweichung kann als Maß für die Unsicherheit dienen. In der Physik gibt beispielsweise die gemeldete Standardabweichung einer Gruppe wiederholter Messungen die Genauigkeit dieser Messungen an. Bei der Entscheidung, ob die Messungen mit einer theoretischen Vorhersage übereinstimmen, ist die Standardabweichung dieser Messungen von entscheidender Bedeutung: Wenn der Mittelwert der Messungen zu weit von der Vorhersage entfernt ist (mit der in Standardabweichungen gemessenen Entfernung), dann wird wahrscheinlich die Theorie getestet muss überarbeitet werden. Dies ist sinnvoll, da sie außerhalb des Wertebereichs liegen, der vernünftigerweise erwartet werden könnte, wenn die Vorhersage korrekt und die Standardabweichung angemessen quantifiziert wäre. Siehe Vorhersageintervall. Während die Standardabweichung misst, wie weit typische Werte tendenziell vom Mittelwert entfernt sind, stehen andere Maße zur Verfügung. Ein Beispiel ist die mittlere absolute Abweichung, die als direkteres Maß für die durchschnittliche Entfernung angesehen werden könnte, verglichen mit der der Standardabweichung inhärenten quadratischen Mittelwertentfernung. Anwendungsbeispiele Bearbeiten Der praktische Wert des Verständnisses der Standardabweichung eines Satzes von Werten besteht darin, die Abweichung vom Durchschnitt (Mittelwert) einzuschätzen. Experiment, Industrie und Hypothesentests Bearbeiten Die Standardabweichung wird häufig verwendet, um reale Daten mit einem Modell zu vergleichen, um das Modell zu testen. In industriellen Anwendungen muss beispielsweise das Gewicht von Produkten, die eine Produktionslinie verlassen, einem gesetzlich vorgeschriebenen Wert entsprechen. Durch das Wiegen eines Bruchteils der Produkte kann ein Durchschnittsgewicht ermittelt werden, das immer leicht vom langjährigen Durchschnitt abweicht. Unter Verwendung von Standardabweichungen kann ein minimaler und maximaler Wert berechnet werden, bei dem das gemittelte Gewicht innerhalb eines sehr hohen Prozentsatzes der Zeit liegt (99,9 % oder mehr). Wenn es außerhalb des Bereichs liegt, muss der Produktionsprozess möglicherweise korrigiert werden. Solche statistischen Tests sind besonders wichtig, wenn das Testen relativ teuer ist. Zum Beispiel, wenn das Produkt geöffnet und abgelassen und gewogen werden muss oder das Produkt anderweitig durch den Test aufgebraucht wurde. In der experimentellen Wissenschaft wird ein theoretisches Modell der Realität verwendet. Die Teilchenphysik verwendet konventionell einen Standard von "5 sigma" für die Feststellung einer Entdeckung. Ein Fünf-Sigma-Niveau entspricht einer Chance von 3,5 Millionen, dass eine zufällige Fluktuation das Ergebnis liefern würde. Dieser Grad an Sicherheit war erforderlich, um zu behaupten, dass ein mit dem Higgs-Boson übereinstimmendes Teilchen entdeckt wurde in zwei unabhängigen Experimenten am CERN, [11] die auch zur Erklärung der ersten Beobachtung von Gravitationswellen [12] und zur Bestätigung der globalen Erwärmung führten [13] Wetter Bearbeiten Betrachten Sie als einfaches Beispiel die durchschnittlichen Tageshöchsttemperaturen für zwei Städte, eine im Landesinneren und eine an der Küste. Es ist hilfreich zu verstehen, dass der Bereich der täglichen Höchsttemperaturen für Städte in Küstennähe kleiner ist als für Städte im Landesinneren. Auch wenn diese beiden Städte zwar die gleiche durchschnittliche Höchsttemperatur aufweisen können, ist die Standardabweichung der Tageshöchsttemperatur für die Küstenstadt geringer als die der Stadt im Landesinneren, da die tatsächliche Höchsttemperatur an einem bestimmten Tag wahrscheinlicher ist weiter von der durchschnittlichen Höchsttemperatur für die Stadt im Landesinneren entfernt als für die Küstenstadt. Finanzen Bearbeiten Im Finanzbereich wird die Standardabweichung häufig als Maß für das Risiko verwendet, das mit Preisschwankungen eines bestimmten Vermögenswerts (Aktien, Anleihen, Immobilien usw.) oder des Risikos eines Vermögensportfolios verbunden ist [14] (aktiv verwaltete Investmentfonds). , Indexfonds oder ETFs). Das Risiko ist ein wichtiger Faktor für die effiziente Verwaltung eines Anlageportfolios, da es die Renditeschwankungen des Vermögenswerts und/oder des Portfolios bestimmt und den Anlegern eine mathematische Grundlage für Anlageentscheidungen liefert (sogenannte Mittelwert-Varianz-Optimierung). Das grundlegende Risikokonzept besteht darin, dass mit steigendem Risiko auch die erwartete Rendite einer Anlage steigen sollte, eine Erhöhung, die als Risikoprämie bekannt ist. Mit anderen Worten, Anleger sollten eine höhere Rendite einer Anlage erwarten, wenn diese Anlage ein höheres Maß an Risiko oder Unsicherheit birgt. Bei der Bewertung von Investitionen sollten Anleger sowohl die erwartete Rendite als auch die Unsicherheit zukünftiger Renditen schätzen. Die Standardabweichung liefert eine quantifizierte Schätzung der Unsicherheit zukünftiger Renditen. Nehmen wir zum Beispiel an, ein Anleger muss sich zwischen zwei Aktien entscheiden. Aktie A wies in den letzten 20 Jahren eine durchschnittliche Rendite von 10 Prozent mit einer Standardabweichung von 20 Prozentpunkten (pp) auf und Aktie B wies im gleichen Zeitraum eine durchschnittliche Rendite von 12 Prozent, aber eine höhere Standardabweichung von 30 Prozentpunkten auf. Auf der Grundlage von Risiko und Rendite kann ein Anleger entscheiden, dass Aktie A die sicherere Wahl ist, da die zusätzlichen zwei Prozentpunkte der Rendite von Aktie B die zusätzlichen 10 pp Standardabweichung (höheres Risiko oder Unsicherheit der erwarteten Rendite) nicht wert sind. Aktie B wird unter den gleichen Umständen wahrscheinlich häufiger unter der Anfangsinvestition zurückbleiben (aber auch die Anfangsinvestition überschreiten) als Aktie A, und es wird geschätzt, dass sie im Durchschnitt nur zwei Prozent mehr rentiert. In diesem Beispiel wird von Aktie A erwartet, dass sie etwa 10 Prozent plus oder minus 20 PP (eine Spanne von 30 Prozent bis -10 Prozent) erwirtschaften wird, etwa zwei Drittel der Renditen des zukünftigen Jahres. Bei der Betrachtung extremerer möglicher Renditen oder Ergebnisse in der Zukunft sollte ein Anleger Ergebnisse von bis zu 10 Prozent plus oder minus 60 pp erwarten, oder eine Spanne von 70 Prozent bis −50 Prozent, die Ergebnisse für drei Standardabweichungen von der durchschnittlichen Rendite einschließt (etwa 99,7 Prozent der wahrscheinlichen Renditen). Die Berechnung des Durchschnitts (oder des arithmetischen Mittels) der Rendite eines Wertpapiers über einen bestimmten Zeitraum ergibt die erwartete Rendite des Vermögenswerts. Die Subtraktion der erwarteten Rendite von der tatsächlichen Rendite ergibt für jede Periode die Differenz zum Mittelwert. Das Quadrieren der Differenz in jeder Periode und das Ziehen des Durchschnitts ergibt die Gesamtvarianz der Rendite des Vermögenswerts. Je größer die Varianz, desto größer das Risiko der Sicherheit. Das Ermitteln der Quadratwurzel dieser Varianz ergibt die Standardabweichung des fraglichen Anlageinstruments. Finanzzeitreihen sind bekanntermaßen nichtstationäre Reihen, während die obigen statistischen Berechnungen, wie z. B. die Standardabweichung, nur für stationäre Reihen gelten. Um die oben genannten statistischen Werkzeuge auf nichtstationäre Reihen anzuwenden, muss die Reihe zuerst in eine stationäre Reihe umgewandelt werden, um die Verwendung statistischer Werkzeuge zu ermöglichen, die nun eine gültige Grundlage haben, auf der man arbeiten kann. Geometrische Interpretation Bearbeiten Um einige geometrische Einblicke und Erläuterungen zu gewinnen, beginnen wir mit einer Grundgesamtheit von drei Werten, x1, x2, x3. Dies definiert einen Punkt P = (x1, x2, x3) im R 3 . Betrachten Sie die Linie L = <(r, r, r) : rR>. Dies ist die "Hauptdiagonale", die durch den Ursprung geht. Wären unsere drei gegebenen Werte alle gleich, dann wäre die Standardabweichung null und P würde lügen L. Es ist also nicht unvernünftig anzunehmen, dass die Standardabweichung mit dem zusammenhängt Entfernung von P zu L. Das ist tatsächlich so. Um sich orthogonal von zu bewegen L auf den Punkt P, man beginnt an der Stelle: Zuverlässigkeit des Mittelwertes der Standardabweichungen Ich habe eine Frage, die wahrscheinlich meine Unwissenheit über Statistiken zeigen wird :). Ich habe eine große Anzahl von Maschinen, die Eisenstangen bestimmter Längen herstellen. Für jede Maschine habe ich Experimente durchgeführt und habe eine Liste mit Längen. Aus diesen kann ich einen Mittelwert und eine Stichprobenstandardabweichung berechnen. Ihre Mittel sind mir egal und ich konzentriere mich hauptsächlich auf die Variation. Daher erfasse ich grundsätzlich nur eine Stichprobenstandardabweichung pro Maschine. Ich denke, die Ergebnisse jeder Maschine folgen einer Normalverteilung. So weit, ist es gut :) Diese Variationen möchte ich nun zu einer einzigen Zahl zusammenfassen. Daher berechne ich den quadratischen Durchschnitt jeder Maschinenvariation, nennen wir ihn X. Im nächsten Schritt möchte ich auch eine Schätzung für die Streuung um X abgeben. Wie heißt diese Zahl und wie berechnet man sie am besten? Ich bin mir nicht sicher, ob es mit dem Konfidenzintervall einer Standardabweichung zusammenhängt, und ich weiß nicht, ob die Messungen unabhängig sind (ein Konstruktionsfehler würde in allen auftauchen, eine Konstruktion vielleicht nur in einigen). Beispiel. Ich versuche es an einem Beispiel zu verdeutlichen. Angenommen, ich messe 3 Maschinen und finde heraus, dass sie Längen von erzeugen M1: 100 +/- 7 M2: 120 +/- 8 M3: 130 +/- 9 wobei die Zahlen hinter den +/- die Standardabweichungen der beobachteten Werte auf dieser einzelnen Maschine sind. Wie gesagt, es geht mir nicht um die Mittel sondern nur um die Verbreitung, also definiere ich I = <7,8,9>. Ihr quadratischer Durchschnitt ist X = RMS(X_i) =$sqrt<194>$und ich sehe X als Hinweis auf die durchschnittliche Verbreitung einer Maschine in meinem Park. Angenommen, ich hätte gefunden = <3,8,11>. Ihr quadratischer Durchschnitt ist derselbe$sqrt<194>$, aber die Streuung darum herum ist offensichtlich größer. Mein Vertrauen in die Korrektheit von$sqrt<194>$als durchschnittlicher Spread einer Maschine sollte daher geringer sein (ich würde zum Beispiel gerne noch einige Maschinen testen) und ich möchte dies in einer Zahl ausdrücken. 2 Antworten 2 Der Hauptunterschied zwischen diesen Gleichungen ist die Art des Fehlers: Während die erste für systematischer Fehler, die zweite wird verwendet für zufällige Fehler. Die erste Gleichung ist die Gesamtableitung einer Funktion$f=f(x,y)$am Punkt$(x_0, y_0) ag1 df = df(x_0,y_0) = frac dx +frac dy $Dies gilt für jede Funktion und jede Variable. Schon seit systematisch Fehler sind unbekannte Konstanten ihre Varianz ist null. Gl. (1) sagt uns, wie ein "systematischer Offset"$dx$einen "systematischen Offset"$df$erzeugt: Der systematische Fehler$dx$wird mit der Ableitung$frac$gewichtet, da der Schweregrad der Fehler hängt davon ab, wie schnell sich die Funktion$f$um den Punkt$(x_0,y_0)$ändert. Deshalb verwenden wir Gl. (1) um den systematischen Fehler zu schätzen. Im Gegensatz dazu sagt uns Ihre zweite Gleichung, wie zufällige Variablen$x$und$y$beeinflussen die Antwortvariable$f(x,y)$. Durch Quadrieren beider Seiten erhalten wir$ ag2 Var[f(x_0,y_0)] approx left(frac ight)^2Var[x] + left(frac ight)^2Var[y] $wobei ich$sigma_x^2 = Var[x]$verwende. The variance of$x$is non-zero, because if we try to set the input to$x_i=x_0$, we actual get$x_i=x_0 + epsilon_i$, where$epsilon_i$is a random error. I hope this statements make it clear that$dx e sigma_x$. Although both are "uncertainties", systematic and random errors are fundamentally different. Sidemark: The confusion regarding the words uncertainty and standard deviation is understandable, because people often use them as synonyms. However, historically there exists other "conventions". Thus, I strongly recommend that you do not use the word "uncertainty" unless you have either previously defined it, or use it only in a qualitative (non-quantitative) fashion. How do we estimate the variance$Var[f(x,y)]$in eq. (2)? Let's consider a simple example, where we have only a single random input variable$x$(no second input$y$). Thus, we have several options This stems from the property of variance. For a random variable$X$and a constant$a$,$mathrm(aX)=a^2mathrm(x)$. Therefore, if you divide the data by its standard deviation ($sigma$),$mathrm(X/sigma)=mathrm(X)/sigma^2=sigma^2/sigma^2=1$. Standardizing is is just changing the units so they are in "standard deviation" units. After standardization, a value of 1.5 means "1.5 standard deviations above 0". If the standard deviation were 8, this would be equivalent to saying "12 points above 0". An example: when converting inches to feet (in America), you multiply your data in inches by a conversion factor,$frac<1 foot><12 inches>$, which comes from the fact that 1 foot equals 12 inches, so you're essentially just multiplying your data points by a fancy version of 1 (i.e., a fraction with equal numerator and denominator). For example, to go from 72 inches to feet, you do$72 inches imes frac<1 foot><12 inches>=6feet$. When converting scores from raw units to standard deviation units, you multiply your data in raw units by the conversion factor$frac<1sd>$. So if you had a score of 100 and the standard deviation ($sigma$) was 20, your standardized score would be$100 points imes frac<1 sd><20 points>=5sd$. Standardization is just changing the units. Changing the units of a dataset doesn't affect how spread out it is you just change the units of the measure of spread you're using so that they match. So if your original data had a standard deviation of 20 points, and you've changed units so that 20 original points equals 1 new standardized unit, then the new standard deviation is 1 unit (because 20 original units equals 1 new unit). 2 Antworten 2 Q: Is it safe to say that standard deviation indicates how reliable the mean of some values is? Standard deviation is one of two main factors contributing to the reliability of the population mean. This reliability is often quantified as the standard error (SE) of the mean, which is equal to the standard deviation ($sigma$) divided by the square root of the sample size ($n\$).

In general standard errors can be expressed differently depending on what is being done.

Q: Is it safe to say that standard deviation indicates how reliable the mean of some values is?

If you are comparing two normally-distributed variables on the same measurement scale then yes, you can regard the standard deviation as an indicator of how reliable the mean is--the smaller the standard deviation, the better able you are to "zero in" on the actual population mean. You can also use the Fisher Information to do this (the larger the Fisher Information, the more reliable the mean is).

But if your variables are not normally distributed then it becomes trickier. For unimodal distributions, the "reliability" of a population mean depends on the degree to which the distribution is symmetric. For symmetric and unimodal (i.e. Gaussian) distributions the mean is a very useful measure of central tendency. As a unimodal distribution becomes more skewed, the mean is increasingly sensitive to "outliers" in the direction of the skew and thus becomes less reliable. For skewed distributions the median is a more reliable measure of central tendency. In normal distributions the mean and median are equal. I suppose that the difference between the mean and median might in some cases be a kind of rote measurement of the "reliability" of the mean. This general concept is built into tests of normality like Shapiro-Wilk.

As the square root of the second central moment, the standard deviation is a measure of spread about the mean. In normal distributions the standard deviation is independent from the mean but in skewed distributions it becomes a function of the mean. In light of this, normal distributions are adequately described by their mean and standard deviation while skewed distributions are better described by the 5-number summary (minimum, Q1, median, Q3, maximum).

4 Antworten 4

Question: Usefulness of standard deviation/alternatives for highly variable measurements?

Standard deviation will tell you whether or not the measurements are highly variable, it's not that you use "standard deviation" to predict the weather, it's that you use standard deviation to tell you if the andere value (for which the standard deviation is provided) can be relied on as a predictor.

Even that alone is no guarantee. Example: It rained on this date 100% for the past 100 years, will it rain today? Answer: There's a good chance, but if there are no clouds in the sky there's 0% chance. The standard deviation of a single value is not the certainty of a result.

"Everybody knows that when it comes to climate and weather, there really is no difference between Oklahoma and Hawaii. What. You mean you don't believe me? Well, let's look at the statistics (after all, this is a stat course). The average (mean) daily temperature in Hawaii is 78 degrees farenheit. The average daily temperature in Oklahoma is 77 degrees farenheit. You see. no difference.

You still don't buy it huh? Well you are indeed smarter than you look. But how about those numbers? Are they wrong? Nope, the numbers are fine. But what we learn here is that our measures of central tendency (mean, median and mode) are not always enough to give us a complete picture of a distribution. We need more information to distinguish the difference.

Well before we go any further, let me ask a question: Which average temperature more accurately describes that state? Is 78 degrees more accurate of Hawaii than 77 degrees is of Oklahoma? Well if you live in Oklahoma I suspect you decided that 77 degrees is a fairly meaningless number when it comes to describing the climate here.

.

Okay. so the mean temperatures were 78 for Hawaii and 77 for Oklahoma. right? But notice the difference in standard deviation. Hawaii is a mere 2.52 while Oklahoma came in at 10.57. What does this mean you ask? Well the standard deviation tells us the standard amount that the distribution deviates from the average. The higher the standard deviation, the more varied that distribution is. And the more varied a distribution, the less meaningful the mean. You see in Oklahoma, the standard deviation for temperature is higher. This means that our temperatures are much more varied. Und because the temperature varies so much, the average of 77 doesn't really mean much. But look at Hawaii. There the standard deviation is very low. This of course means the temperature there does not vary much. And as a result the average of 78 degrees is much more descriptive of the Hawaiin climate. I wonder if that has anything to do with why people want to vacation in Hawaii rather than Oklahoma?

From: "Probabilistic Forecasting - A Primer" by Chuck Doswell and Harold Brooks of the National Severe Storms Laboratory Norman, Oklahoma:

"Probabilistic forecasts can take on a variety of structures. As shown in Fig. 0, it might be possible to forecast Q as a probability distribution. [Subject to the constraint that the area under the distribution always sums to unity (or 100 percent), which has not been done for the schematic figure.] The distribution can be narrow when one is relatively confident in a particular Q-value, or wide when one's certainty is relatively low. It can be skewed such that values on one side of the central peak are more likely than those on the other side, or it can even be bimodal [as with a strong quasistationary front in the vicinity when forecasting temperature]. It might be possible to make probabilistic forecasts of going past certain important threshold values of Q. Probabilistic forecasts don't all have to look like PoPs! When forecasting for an area, it is quite likely that forecast probabilities might vary from place to place, even within a single metropolitan area.".

Question: However is standard deviation only useful/make sense for normal distributions?

All that standard deviation will tell you about "highly variable measurements" is that they are highly variable, but you knew that already if the standard deviation is very low you can rely more, but not absolutely, on historical measurements.

As a sidequestion: would the mean value be more accurate, with lower coefficient of variation if one has one million or billion years of measurements of data, even when each data point (spread) is highly variable?

Q: Mean more accurate with more data points?: Yes.

Q: Lower variation (standard deviation)?: No, not if the "data point (spread) is highly variable".

The "standard deviation" doesn't affect the Richtigkeit of your calculation of the mean, regardless of the standard deviation you have equal mathematical skills and calculate both the mean and standard deviation equally well. It's that with a standard deviation (accurately calculated) the mean (or any other value) has less meaning when the standard deviation is large. It's a less useful predictor.

With a very low standard deviation any prediction based on a single value (for example, the mean) isn't 100% reliable.

Question: Looking for answers which preferably are relevant to above example. Links to relevant studies are highly appreciated. Answers/research that provide intuitive examples/explanations are also highly appreciated. Of course answers to the other questions also are appreciated.

- Understanding the difference between climatological probability and climate probability

"Bayesian probability is an interpretation of the concept of probability, in which, instead of frequency or propensity of some phenomenon, probability is interpreted as reasonable expectation representing a state of knowledge or as quantification of a personal belief.

The Bayesian interpretation of probability can be seen as an extension of propositional logic that enables reasoning with hypotheses, i.e., the propositions whose truth or falsity is uncertain. In the Bayesian view, a probability is assigned to a hypothesis, whereas under frequentist inference, a hypothesis is typically tested without being assigned a probability.

Bayesian probability belongs to the category of evidential probabilities to evaluate the probability of a hypothesis, the Bayesian probabilist specifies some prior probability, which is then updated to a posterior probability in the light of new, relevant data (evidence). The Bayesian interpretation provides a standard set of procedures and formulae to perform this calculation.".

- Modern Forecasting Papers

That should get you started, each of those papers has citation links which lead to newer papers.

Inhalt

Statistical significance dates to the 1700s, in the work of John Arbuthnot and Pierre-Simon Laplace, who computed the p-value for the human sex ratio at birth, assuming a null hypothesis of equal probability of male and female births see p-value § History for details. [22] [23] [24] [25] [26] [27] [28]

In 1925, Ronald Fisher advanced the idea of statistical hypothesis testing, which he called "tests of significance", in his publication Statistical Methods for Research Workers. [29] [30] [31] Fisher suggested a probability of one in twenty (0.05) as a convenient cutoff level to reject the null hypothesis. [32] In a 1933 paper, Jerzy Neyman and Egon Pearson called this cutoff the significance level, which they named α . They recommended that α be set ahead of time, prior to any data collection. [32] [33]

Despite his initial suggestion of 0.05 as a significance level, Fisher did not intend this cutoff value to be fixed. In his 1956 publication Statistical Methods and Scientific Inference, he recommended that significance levels be set according to specific circumstances. [32]

Related concepts Edit

Sometimes researchers talk about the confidence level γ = (1 − α) instead. This is the probability of not rejecting the null hypothesis given that it is true. [34] [35] Confidence levels and confidence intervals were introduced by Neyman in 1937. [36]

Statistical significance plays a pivotal role in statistical hypothesis testing. It is used to determine whether the null hypothesis should be rejected or retained. The null hypothesis is the default assumption that nothing happened or changed. [37] For the null hypothesis to be rejected, an observed result has to be statistically significant, i.e. the observed p-value is less than the pre-specified significance level α .

To determine whether a result is statistically significant, a researcher calculates a p-value, which is the probability of observing an effect of the same magnitude or more extreme given that the null hypothesis is true. [6] [13] The null hypothesis is rejected if the p-value is less than (or equal to) a predetermined level, α . α is also called the significance level, and is the probability of rejecting the null hypothesis given that it is true (a type I error). It is usually set at or below 5%.

For example, when α is set to 5%, the conditional probability of a type I error, given that the null hypothesis is true, is 5%, [38] and a statistically significant result is one where the observed p-value is less than (or equal to) 5%. [39] When drawing data from a sample, this means that the rejection region comprises 5% of the sampling distribution. [40] These 5% can be allocated to one side of the sampling distribution, as in a one-tailed test, or partitioned to both sides of the distribution, as in a two-tailed test, with each tail (or rejection region) containing 2.5% of the distribution.

The use of a one-tailed test is dependent on whether the research question or alternative hypothesis specifies a direction such as whether a group of objects is heavier or the performance of students on an assessment is better. [3] A two-tailed test may still be used but it will be less powerful than a one-tailed test, because the rejection region for a one-tailed test is concentrated on one end of the null distribution and is twice the size (5% vs. 2.5%) of each rejection region for a two-tailed test. As a result, the null hypothesis can be rejected with a less extreme result if a one-tailed test was used. [41] The one-tailed test is only more powerful than a two-tailed test if the specified direction of the alternative hypothesis is correct. If it is wrong, however, then the one-tailed test has no power.

Significance thresholds in specific fields Edit

In specific fields such as particle physics and manufacturing, statistical significance is often expressed in multiples of the standard deviation or sigma (σ) of a normal distribution, with significance thresholds set at a much stricter level (e.g. 5σ). [42] [43] For instance, the certainty of the Higgs boson particle's existence was based on the 5σ criterion, which corresponds to a p-value of about 1 in 3.5 million. [43] [44]

In other fields of scientific research such as genome-wide association studies, significance levels as low as 5 × 10 −8 are not uncommon [45] [46] —as the number of tests performed is extremely large.

Researchers focusing solely on whether their results are statistically significant might report findings that are not substantive [47] and not replicable. [48] [49] There is also a difference between statistical significance and practical significance. A study that is found to be statistically significant may not necessarily be practically significant. [50] [20]

Effect size Edit

Effect size is a measure of a study's practical significance. [50] A statistically significant result may have a weak effect. To gauge the research significance of their result, researchers are encouraged to always report an effect size along with p-values. An effect size measure quantifies the strength of an effect, such as the distance between two means in units of standard deviation (cf. Cohen's d), the correlation coefficient between two variables or its square, and other measures. [51]

Reproducibility Edit

A statistically significant result may not be easy to reproduce. [49] In particular, some statistically significant results will in fact be false positives. Each failed attempt to reproduce a result increases the likelihood that the result was a false positive. [52]

Overuse in some journals Edit

Starting in the 2010s, some journals began questioning whether significance testing, and particularly using a threshold of α =5%, was being relied on too heavily as the primary measure of validity of a hypothesis. [53] Some journals encouraged authors to do more detailed analysis than just a statistical significance test. In social psychology, the journal Basic and Applied Social Psychology banned the use of significance testing altogether from papers it published, [54] requiring authors to use other measures to evaluate hypotheses and impact. [55] [56]

Other editors, commenting on this ban have noted: "Banning the reporting of p-values, as Basic and Applied Social Psychology recently did, is not going to solve the problem because it is merely treating a symptom of the problem. There is nothing wrong with hypothesis testing and p-values per se as long as authors, reviewers, and action editors use them correctly." [57] Some statisticians prefer to use alternative measures of evidence, such as likelihood ratios or Bayes factors. [58] Using Bayesian statistics can avoid confidence levels, but also requires making additional assumptions, [58] and may not necessarily improve practice regarding statistical testing. [59]

The widespread abuse of statistical significance represents an important topic of research in metascience. [60]

Redefining significance Edit

In 2016, the American Statistical Association (ASA) published a statement on p-values, saying that "the widespread use of 'statistical significance' (generally interpreted as 'p ≤ 0.05') as a license for making a claim of a scientific finding (or implied truth) leads to considerable distortion of the scientific process". [58] In 2017, a group of 72 authors proposed to enhance reproducibility by changing the p-value threshold for statistical significance from 0.05 to 0.005. [61] Other researchers responded that imposing a more stringent significance threshold would aggravate problems such as data dredging alternative propositions are thus to select and justify flexible p-value thresholds before collecting data, [62] or to interpret p-values as continuous indices, thereby discarding thresholds and statistical significance. [63] Additionally, the change to 0.005 would increase the likelihood of false negatives, whereby the effect being studied is real, but the test fails to show it. [64]

In 2019, over 800 statisticians and scientists signed a message calling for the abandonment of the term "statistical significance" in science, [65] and the American Statistical Association published a further official statement [66] declaring (page 2):

We conclude, based on our review of the articles in this special issue and the broader literature, that it is time to stop using the term "statistically significant" entirely. Nor should variants such as "significantly different," " p ≤ 0.05 ," and "nonsignificant" survive, whether expressed in words, by asterisks in a table, or in some other way.