모비율의 추정에서

표본비율의 분포를 정규분포로 취급할 수 있는 조건이

표본의 크기가 n, 모비율이 p일 때

np >= 5 이고 n(1-p) >= 5

라고 하는데

저걸 판단하는 단계에서는 모비율 p를 모르지 않음?

근데 어떻게 저걸 판단할 수 있는 건지 궁금함



모비율 p 대신 표본비율 phat을 쓸 수 있을 조건도 위와 동일하다는데

그럼 저 조건을 p 대신 phat에 대한 걸로 생각할 수도 없는 거 아님?



예를 들어 앞면이 나올 확률이 p = 0.1인 동전이 있다고 하고

사람들한테는 p가 얼마인지 알려져 있지 않아서

사람들이 직접 동전을 던져서 앞뒷면 갯수를 세서

모비율로서 p를 추정하는 걸 생각해보면

던진 횟수 n이 충분히 많은가 부족한가의 여부가

np가 5 이상이냐에 의해 결정이 되는 건데

낮은 확률이지만 앞면이 꽤 많이 나올 수도 있는 거잖음

앞면 나올 확률이 0.1이지만 n = 100일 때 앞면이 50번 나오는

극단적인 경우도 수학적으로 가능은 하잖음



그럼 이건 모비율은 모르고 표본비율은 0.5라고 생각하게 되는 상황인데

이때 n이 중심극한정리를 적용해도 될만큼 충분한지 아닌지

즉 np가 5 이상인지 아닌지 어떻게 판단함?