Definice: Pro parametr náhodného procesu a statistik nazveme interval konfidenčním intervalem o spolehlivosti (neboli -CI), jestliže
Metoda založená na normálním přiblížení
- Bodový odhad je nestranný odhad parametru .
- Pro velké (nebo když je lineární kombinací i.i.d. veličin) platí podle CLT
- Standardní chyba
Např. pro průměr z i.i.d. vzorku s pop. rozptylem je .
4. CI pro
kde .
Příklad: Pro průměr známého z pozorování :
Testování hypotéz
Základní schéma
- Formulace hypotéz:
- Nulová hypotéza : „konzervativní“ model, který chceme otestovat.
- Alternativní hypotéza : „zajímavější“ model.
- Testová statistika , jejíž rozdělení za známe (nebo aproximujeme).
- Kritický obor : množina hodnot , při jejichž dosažení se zamítá, určená tak, aby
Hodnota je hladina významnosti – pravděpodobnost chyby I. druhu.
3. Rozhodnutí:
- Pokud , nezamítáme .
- Pokud , zamítáme .
Chyby testování
- Chyba I. druhu (): Zamítnutí , i když je pravdivá.
- Chyba II. druhu (): Nezamítnutí , i když platí .
- Síla testu: – pravděpodobnost správného zamítnutí pod .
p-hodnota
Definice: p-hodnota je nejmenší , při kterém by náš pozorovaný výsledek vedl k zamítnutí .
Poznámka: Pro střední hodnotu normálního rozdělení existují konkrétní z-testy (známý , testová statistika ) a t-testy (neznámé , statistika Studentova ).
Jednoduchý příklad: Odhady a testování pro podíl úspěchů
Máme 100 nezávislých pokusů (např. vhazování mincí) a zaznamenáme 60 úspěchů (head). Označme počet úspěchů .
1. Bodový odhad
- Podílový odhad
2. Konfidenční interval (95 %)
- Standardní chyba odhadu :
- Kritická hodnota pro 95 % CI:
- Interval pro
Interpretace: S 95 % jistotou říkáme, že skutečný leží někde mezi 0,504 a 0,696.
3. Testování hypotézy
Hypotézy
- (jednostranný test)
Testová statistika
Za platí
p-hodnota
Rozhodnutí
- Zvolíme .
- Protože p-hodnota , zamítáme .
Interpretace: Pozorování 60 úspěchů z 100 je při dost nepravděpodobné (jen asi 2,3 % šance), proto usuzujeme, že skutečný podíl úspěchů je vyšší než 0,5.
4. Chyby a síla testu
-
Chyba I. druhu (=5 %): Zamítnout , i když (falešné poplachy).
-
Chyba II. druhu (): Nezamítnout , i když ve skutečnosti .
Například pokud je pravý , kritický práh pro zamítnutí je (protože dává ).
Pak
Síla testu .
Shrnutí
- Intervalový odhad: Dává rozsah, kde s danou jistotou leží parametr.
- Test hypotézy: Porovnává data s předpokladem , rozhoduje podle hladiny .
- Chyba I. druhu: Prorazíme , i když je pravdivá (říkáme si „falešný poplach“).
- Chyba II. druhu: Nezamítneme , i když je ve skutečnosti nepravdivá (promarněná příležitost).
- p-hodnota: Skutečná pravděpodobnost pozorovat tak extrémní či ještě extrémnější hodnotu testové statistiky za .
- Síla testu: Pravděpodobnost správného zamítnutí pod alternativou.