본문 바로가기
수학

가설검정 문제

by ybs 2021. 1. 17.
반응형

EXERCISES 4.5.5

Let $X_1, X_2$ be a random sample of size n = 2 from the distribution having
pdf $ f(x;\theta) = (1/\theta)e^{-x/\theta}, \ 0 < x < \infty$ zero elsewhere.
We reject $H_0 : \theta = 2$ and accept $H_1 : \theta = 1$ if the observed values of $X_1, X_2$,
say $x_1, x_2$ are such that ${f(x_1;2)f(x_2;2) \over f(x_1;1)f(x_2;1)} \le {1\over2} $.

Here $\Omega = \{ \theta:\theta = 1,2 \}$. 

Find the significance level of the test and the power of the test when $H_0$ is false.

 

먼저 문제에서 기각역을 알려줬다. $x_1, x_2$ 의 observed values 가 ${f(x_1;2)f(x_2;2) \over f(x_1;1)f(x_2;1)} \le {1\over2} $
를 만족할 때 H0를 reject 하고 H1을 accept 한다고 했다. 기각역을 먼저 구하면 아래와 같다.

 

${f(x_1;2)f(x_2;2) \over f(x_1;1)f(x_2;1)} \le {1\over2} $
$\Leftrightarrow {{1\over2}e^{-x_1 \over 2}{1\over2}e^{-x_2 \over 2} \over e^{-x_1}e^{-x_2}} \le {1\over2}$
$\Leftrightarrow {e^{-x_1 \over 2}e^{-x_2 \over 2} \over e^{-x_1}e^{-x_2}} \le 2$
$\Leftrightarrow {e^{-x_1-x_2 \over 2} \over e^{-x_1-x_2}} \le 2$
$\Leftrightarrow {e^{{-x_1-x_2 \over 2} - ({-x_1-x_2})} } \le 2$
$\Leftrightarrow {e^{{x_1+x_2 \over 2} }} \le 2$
$\Leftrightarrow \log_{e}{e^{{x_1+x_2 \over 2} }} \le \log_{e}2$
$\Leftrightarrow {x_1+x_2 \over 2} \le \ln2$
$\Leftrightarrow {x_1+x_2} \le 2\ln2$(기각역)

 

power를 구해라
power(검정역) 는 1 - Type2 Error 이다. Type2 Error 는 H0를 선택했는데 H1이 참인 경우다.
power 가 클수록 Type2 Error 는 작아지니까 올바른 의사결정을 내릴 확률이 커진다.
power = $1 - \Pr_{H_1}(H_0 accept)$
power = $\Pr_{H_1}(H_0 reject)$
즉, H1이 참인 상황이고, 데이터도 기각역 안에 들어있을 확률을 말한다.

 

$\theta = 1$ 일 때 관측된 데이터 $x_1, x_2$ 가 ${x_1+x_2} \le 2\ln2$ 에 들어있을 확률
$\Pr_{\theta=1}({X_1+X_2} \le 2\ln2)$ 를 구하면 된다.

 

우선, 확률의 기본적 개념은 P(A), 즉 집합의 형태로 표현된 A에 0에서 1 사이의 수를
부여하는 것이다. 현재 A는 두 관측값 x1과 x2의 합이 2ln2 보다 작게 되는 모든 (x1, x2)의 집합이다.
그러니까 적분도 x1, x2에 대한 중적분이 된다(x1, x2 범위를 명확히 정리해 주어야 적분값을 계산할 수 있다).

확률을 계산하는 방법은 크게 2가지이다. (1) $X_1 + X_2 = U, X_2 = V$ 로의 transformation 후 U 에 대한
marginal pdf를 구해 계산하는 방식. (2) 기존에 주어진 것처럼, 적분 구간을 정리해서 한번에 적분해 주는 방식.
(2) 는 주어진 부등식과 각 확률변수들의 support 들을 적절히 조합해주는 작업이 수반된다.

이 문제에서는 $X_1, X_2$ 2개의 확률변수를 다루고, 이 두 변수가 독립이기 때문에
(2) 의 방법이 좀 더 계산이 적어서 (1) 보다 낫다. 그리고 $X_1, X_2$ 가 지수분포이므로 이 둘은 positive임이 명백하다.

 

적분 구간을 정리하면 다음과 같다.
$X_1 + X_2 \le 2\ln2, \quad X_1 >0, \quad X_2 >0$
$\Leftrightarrow 0 < X_1 < X_1 + X_2 \le 2ln2$
$\Leftrightarrow 0 < X_1 < 2ln2, \quad 0 < X_2 \le 2ln2 - X_1$

 

$X_1, X_2$ 가 독립이기 때문에 joint pdf 가 각각의 marginal로 분리되고 이로 인해 계산이 수월해진다(분리가 안되는 경우 계산이 복잡해 지는 경우가 많음).
$\Pr_{\theta=1}({X_1+X_2} \le 2\ln2)$
$\Leftrightarrow P(0 < X_1 < 2ln2 \quad AND \quad 0 < X_2 \le 2ln2 - X_1)$
$\Leftrightarrow \int_{0}^{2ln2} \int_{0}^{2ln2-x_1} f_{1,2}(x_1,x_2) \ dx_2, dx_1$
$\Leftrightarrow \int_{0}^{2ln2} \int_{0}^{2ln2-x_1} f_1(x_1)f_2(x_2) \ dx_2, \ dx_1 (independence)$
$\theta=1$ 일때 계산하기 때문에 문제 pdf $f(x;\theta) = (1/\theta)e^{-x/\theta}$ 에 1을 넣으면 된다.
$\Leftrightarrow \int_{0}^{2ln2} \int_{0}^{2ln2-x_1} e^{-x_1}e^{-x_2} \ dx_2, \ dx_1 $
$\Leftrightarrow \int_{0}^{2ln2} e^{-x_1} \int_{0}^{2ln2-x_1} e^{-x_2} \ dx_2, \ dx_1 $
안쪽 정적분부터 정리해야 한다.
$\left[ -e^{-x_2} \right]_{0}^{2ln2-x_1} = 1-e^{x_1-2ln2}$
$\Leftrightarrow \int_{0}^{2ln2} e^{-x_1} (1-e^{x_1-2ln2}) \ dx_1 $
$\Leftrightarrow \int_{0}^{2ln2} (e^{-x_1} -e^{-2ln2}) \ dx_1 $
$\Leftrightarrow \int_{0}^{2ln2} (e^{-x_1} - {1 \over 4}) \ dx_1 $
$\Leftrightarrow \left[ -e^{-x_1} - {1 \over 4}x_1 \right]_{0}^{2ln2} = -e^{-2ln2} -{1 \over 4}2ln2 + 1 $
$\Leftrightarrow {3 \over 4} - {1 \over 2}ln2 = 0.40342640972002736 $

 

유의수준을 구해라

유의수준(significance level)은 Type1 Error 의 최대 허용범위다. Type1 Error는 H1을 선택했는데 H0가 참인 경우다.
H1을 선택했다는 말은 H0를 기각했다는 말이다. 다시말해 기각역안에 들어왔다는 말이다.
결론적으로 유의수준은 H0가 참인 상황이고, 데이터가 기각역 안에 들어있을 확률을 말한다.

$\theta = 2$ 일 때 관측된 데이터 $x_1, x_2$ 가 ${x_1+x_2} \le 2\ln2$ 에 들어있을 확률
$\Pr_{\theta=2}({X_1+X_2} \le 2\ln2)$ 를 구하면 된다.

 

적분 구간을 정리하면 다음과 같다.
$X_1 + X_2 \le 2\ln2, \quad X_1 >0, \quad X_2 >0$
$\Leftrightarrow 0 < X_1 < X_1 + X_2 \le 2ln2$
$\Leftrightarrow 0 < X_1 < 2ln2, \quad 0 < X_2 \le 2ln2 - X_1$

 

$\Pr_{\theta=2}({X_1+X_2} \le 2\ln2)$
$\Leftrightarrow P(0 < X_1 < 2ln2 \quad AND \quad 0 < X_2 \le 2ln2 - X_1)$
$\Leftrightarrow \int_{0}^{2ln2} \int_{0}^{2ln2-x_1} f_{1,2}(x_1,x_2) \ dx_2, dx_1$
$\Leftrightarrow \int_{0}^{2ln2} \int_{0}^{2ln2-x_1} f_1(x_1)f_2(x_2) \ dx_2, \ dx_1 (independence)$
$\theta=2$ 일때 계산하기 때문에 문제 pdf $f(x;\theta) = (1/\theta)e^{-x/\theta}$ 에 2를 넣으면 된다.
$\Leftrightarrow \int_{0}^{2ln2} \int_{0}^{2ln2-x_1} {1 \over4} e^{-x_1 \over 2}e^{-x_2 \over 2} \ dx_2, \ dx_1 $
$\Leftrightarrow {1 \over4} \int_{0}^{2ln2} e^{-x_1 \over 2} \int_{0}^{2ln2-x_1} e^{-x_2 \over 2} \ dx_2, \ dx_1 $
안쪽 정적분부터 정리해야 한다.
$\left[ -2e^{-x_2 \over 2} \right]_{0}^{2ln2-x_1} = 2-2e^{-ln2+ {x_1 \over 2}}$
$\Leftrightarrow {1 \over 4} \int_{0}^{2ln2} e^{-x_1 \over 2} (2-2e^{-ln2+ {x_1 \over 2}}) \ dx_1 $
$\Leftrightarrow {1 \over 4} \int_{0}^{2ln2} (2e^{-x_1 \over 2} -2e^{-ln2}) \ dx_1 $
$\Leftrightarrow {1 \over 4} \int_{0}^{2ln2} (2e^{-x_1 \over 2} -1) \ dx_1 $
$\Leftrightarrow {1 \over 4}\left[ -4e^{-x_1 \over 2} - x_1 \right]_{0}^{2ln2} $
$\Leftrightarrow {1 \over 4} {(-4e^{-ln2} -2ln2 + 4)}$
$\Leftrightarrow {1 \over 4} {(2 -2ln2)}$
$\Leftrightarrow {1 \over 2} {(1 -1ln2)} = 0.15342640972002736$

 

cf1) 지수함수 $y = e^x $ 를 미분하면 $y \prime = e^x$ 똑같다.
cf2) $y = e^{f(x)}$ 를 미분하면 $y \prime = e^{f(x)} * f\prime(x)$ 이다(합성함수미분).
따라서 $\int e^{f(x)} * f \prime(x) = e^{f(x)} + C$ 이다.
cf3) support 은 확률값이 0이 아닌 것들을 말한다.

area where the value of pdf(pmf) is none-zero $\{x | p(x) > 0\}$ 

 

 

문제 출처 : [7th Edition] Robert V. Hogg, Joeseph McKean, Allen T Craig - Introduction to Mathematical Statistics (2012, Pearson)

반응형

'수학' 카테고리의 다른 글

유한체 덧셈과 뺄셈  (0) 2022.10.13
유한체 정의  (0) 2022.10.13
단순회귀분석 (1편)  (0) 2021.01.20
Multivariate Distributions  (0) 2021.01.17
확률과 통계  (0) 2021.01.17