통계 분석 방법론
APOPHENIA는 데이터 간 상관관계를 정량적으로 분석합니다. 본 문서는 플랫폼에서 사용하는 모든 통계적 방법론을 투명하게 설명합니다.
1. Pearson 상관계수 (Pearson Correlation Coefficient)
두 연속형 변수 간의 선형 관계 강도와 방향을 측정하는 모수적 통계량입니다.
r = Σ[(x_i - x̄)(y_i - ȳ)] / √[Σ(x_i - x̄)² · Σ(y_i - ȳ)²]
범위: -1 ≤ r ≤ +1
r = +1 : 완벽한 양의 선형 관계
r = 0 : 선형 관계 없음
r = -1 : 완벽한 음의 선형 관계
해석 기준:
|r| >= 0.9 : 매우 강한 상관관계
|r| >= 0.7 : 강한 상관관계
|r| >= 0.5 : 중간 상관관계
|r| >= 0.3 : 약한 상관관계
|r| < 0.3 : 상관관계 없음
2. Spearman 순위 상관계수 (Spearman's Rank Correlation)
비모수적 방법으로, 이상치(outlier)에 강건하며 비선형 단조 관계도 포착할 수 있습니다. 실제 값 대신 순위(rank)를 사용하여 Pearson 상관계수를 계산합니다.
1. 각 변수의 값을 순위로 변환 (동률은 평균 순위 부여)
2. 순위 배열에 대해 Pearson 상관계수 계산
3. 결과: -1 ≤ ρ ≤ +1
Pearson과 Spearman 결과가 크게 다를 경우, 비선형 관계이거나 이상치의 영향이 클 수 있습니다.
3. 통계적 유의성 검정 (Statistical Significance)
p-value는 t-분포를 이용하여 계산됩니다. 귀무가설(H0: ρ = 0)을 검정합니다.
t = r · √[(n-2) / (1-r²)]
자유도: df = n - 2
유의수준:
p < 0.001 : 매우 강한 유의성 (***)
p < 0.01 : 강한 유의성 (**)
p < 0.05 : 유의성 (*)
p >= 0.05 : 유의하지 않음
4. 95% 신뢰구간 (Fisher Z Transformation)
Fisher의 Z 변환을 사용하여 상관계수의 신뢰구간을 계산합니다.
Z = 0.5 · ln[(1+r) / (1-r)] (Fisher Z 변환)
SE(Z) = 1 / √(n-3) (Z의 표준오차)
95% CI: Z ± 1.96 · SE(Z)
역변환하여 r의 신뢰구간 도출:
r_lower = (e^(2·Z_lower) - 1) / (e^(2·Z_lower) + 1)
r_upper = (e^(2·Z_upper) - 1) / (e^(2·Z_upper) + 1)
표본 크기(n)가 클수록 신뢰구간이 좁아져 추정의 정밀도가 높아집니다.
5. 다중검정 보정 (Multiple Testing Correction)
5.1 Bonferroni 보정
가족별 오류율(Family-Wise Error Rate, FWER)을 제어하는 보수적 방법입니다. 연관 데이터 순위에서 수십~수백 개의 상관관계를 동시에 검정할 때 적용됩니다.
조정된 유의수준: α' = α / m (m = 검정 횟수)
예: 100개 데이터셋과 비교 시
α' = 0.05 / 100 = 0.0005
p < 0.0005인 경우에만 *** 표시
Bonferroni 보정은 매우 보수적이므로, 보정 후 유의하지 않은 결과도 실질적 의미가 있을 수 있습니다.
6. 시차 상관분석 (Lag Correlation / Cross-Correlation)
한 시계열을 시간축으로 이동시켜 최대 상관관계를 보이는 시차를 찾습니다.
범위: -14일 ~ +14일
방법: 각 시차에서 Pearson 상관계수 계산
해석:
최적 시차 +k일 : A가 B보다 k일 앞서 움직임
최적 시차 -k일 : B가 A보다 k일 앞서 움직임
최적 시차 0일 : 동시에 움직임
주의: 시차 적용 시 유효 데이터 수가 줄어들어 통계적 검정력이 감소합니다.
7. 이동 상관계수 (Rolling Correlation)
고정된 윈도우(기본 14일)를 이동시키며 상관계수를 계산하여 시간에 따른 상관관계 변화를 추적합니다.
윈도우 크기: 14일 (기본값)
출력: 각 시점에서의 r 값 시계열
활용:
- 상관관계의 안정성 확인
- 구조적 변화(regime shift) 탐지
- 상관관계가 강화/약화되는 시점 파악
8. R² (결정계수, Coefficient of Determination)
한 변수의 분산 중 다른 변수로 설명되는 비율을 나타냅니다.
R² = r²
예: r = 0.7이면 R² = 0.49
→ A 변동의 49%가 B와 관련됨
9. 데이터 수집 및 품질
- 수집 주기: 6시간마다 GitHub Actions를 통해 자동 수집
- 데이터 출처: Open-Meteo, USGS, NASA DONKI, CoinGecko, Yahoo Finance, Google Trends, Wikipedia, Reddit 등 공개 API
- 출처 신뢰도: Official (공식 API), Established (안정적 서비스), Calculated (자체 계산)
- 최소 표본: 상관분석에 최소 10개 데이터 포인트 필요, 30개 이상 권장
10. 분석 한계 및 주의사항
- 상관관계는 인과관계를 의미하지 않습니다. 두 변수가 함께 움직이더라도 하나가 다른 하나의 원인이라고 할 수 없습니다.
- 교란변수(Confounding Variable): 제3의 변수가 두 변수를 모두 영향할 수 있습니다.
- 정규성 가정: Pearson 상관계수는 데이터가 정규분포를 따른다고 가정합니다. 이상치가 많을 경우 Spearman 사용을 권장합니다.
- 선형성: Pearson은 선형 관계만 포착합니다. 비선형 관계는 낮은 r로 나타날 수 있습니다.
- 데이터 지연: API 데이터는 최대 6시간의 지연이 있을 수 있습니다.
- 과거 기반: 과거 상관관계가 미래에도 유지된다는 보장은 없습니다.
- 투자 조언 아님: 본 플랫폼의 분석은 투자 조언이 아닙니다.
11. 참고문헌
- Pearson, K. (1896). "Mathematical contributions to the theory of evolution. III. Regression, heredity, and panmixia." Philosophical Transactions of the Royal Society A, 187, 253-318.
- Spearman, C. (1904). "The proof and measurement of association between two things." American Journal of Psychology, 15(1), 72-101.
- Fisher, R. A. (1921). "On the 'probable error' of a coefficient of correlation deduced from a small sample." Metron, 1, 3-32.
- Benjamini, Y., & Hochberg, Y. (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing." Journal of the Royal Statistical Society B, 57(1), 289-300.
- Granger, C. W. J. (1969). "Investigating causal relations by econometric models and cross-spectral methods." Econometrica, 37(3), 424-438.