통계 분석 방법론

APOPHENIA는 데이터 간 상관관계를 정량적으로 분석합니다. 본 문서는 플랫폼에서 사용하는 모든 통계적 방법론을 투명하게 설명합니다.

1. Pearson 상관계수 (Pearson Correlation Coefficient)

두 연속형 변수 간의 선형 관계 강도와 방향을 측정하는 모수적 통계량입니다.

r = Σ[(x_i - x̄)(y_i - ȳ)] / √[Σ(x_i - x̄)² · Σ(y_i - ȳ)²]

범위: -1 ≤ r ≤ +1
  r = +1 : 완벽한 양의 선형 관계
  r =  0 : 선형 관계 없음
  r = -1 : 완벽한 음의 선형 관계

해석 기준:
  |r| >= 0.9 : 매우 강한 상관관계
  |r| >= 0.7 : 강한 상관관계
  |r| >= 0.5 : 중간 상관관계
  |r| >= 0.3 : 약한 상관관계
  |r| <  0.3 : 상관관계 없음

2. Spearman 순위 상관계수 (Spearman's Rank Correlation)

비모수적 방법으로, 이상치(outlier)에 강건하며 비선형 단조 관계도 포착할 수 있습니다. 실제 값 대신 순위(rank)를 사용하여 Pearson 상관계수를 계산합니다.

1. 각 변수의 값을 순위로 변환 (동률은 평균 순위 부여)
2. 순위 배열에 대해 Pearson 상관계수 계산
3. 결과: -1 ≤ ρ ≤ +1

Pearson과 Spearman 결과가 크게 다를 경우, 비선형 관계이거나 이상치의 영향이 클 수 있습니다.

3. 통계적 유의성 검정 (Statistical Significance)

p-value는 t-분포를 이용하여 계산됩니다. 귀무가설(H0: ρ = 0)을 검정합니다.

t = r · √[(n-2) / (1-r²)]
자유도: df = n - 2

유의수준:
  p < 0.001 : 매우 강한 유의성 (***)
  p < 0.01  : 강한 유의성 (**)
  p < 0.05  : 유의성 (*)
  p >= 0.05 : 유의하지 않음

4. 95% 신뢰구간 (Fisher Z Transformation)

Fisher의 Z 변환을 사용하여 상관계수의 신뢰구간을 계산합니다.

Z = 0.5 · ln[(1+r) / (1-r)]     (Fisher Z 변환)
SE(Z) = 1 / √(n-3)                (Z의 표준오차)
95% CI: Z ± 1.96 · SE(Z)

역변환하여 r의 신뢰구간 도출:
r_lower = (e^(2·Z_lower) - 1) / (e^(2·Z_lower) + 1)
r_upper = (e^(2·Z_upper) - 1) / (e^(2·Z_upper) + 1)

표본 크기(n)가 클수록 신뢰구간이 좁아져 추정의 정밀도가 높아집니다.

5. 다중검정 보정 (Multiple Testing Correction)

5.1 Bonferroni 보정

가족별 오류율(Family-Wise Error Rate, FWER)을 제어하는 보수적 방법입니다. 연관 데이터 순위에서 수십~수백 개의 상관관계를 동시에 검정할 때 적용됩니다.

조정된 유의수준: α' = α / m   (m = 검정 횟수)

예: 100개 데이터셋과 비교 시
  α' = 0.05 / 100 = 0.0005
  p < 0.0005인 경우에만 *** 표시

Bonferroni 보정은 매우 보수적이므로, 보정 후 유의하지 않은 결과도 실질적 의미가 있을 수 있습니다.

6. 시차 상관분석 (Lag Correlation / Cross-Correlation)

한 시계열을 시간축으로 이동시켜 최대 상관관계를 보이는 시차를 찾습니다.

범위: -14일 ~ +14일
방법: 각 시차에서 Pearson 상관계수 계산

해석:
  최적 시차 +k일 : A가 B보다 k일 앞서 움직임
  최적 시차 -k일 : B가 A보다 k일 앞서 움직임
  최적 시차  0일 : 동시에 움직임

주의: 시차 적용 시 유효 데이터 수가 줄어들어 통계적 검정력이 감소합니다.

7. 이동 상관계수 (Rolling Correlation)

고정된 윈도우(기본 14일)를 이동시키며 상관계수를 계산하여 시간에 따른 상관관계 변화를 추적합니다.

윈도우 크기: 14일 (기본값)
출력: 각 시점에서의 r 값 시계열

활용:
  - 상관관계의 안정성 확인
  - 구조적 변화(regime shift) 탐지
  - 상관관계가 강화/약화되는 시점 파악

8. R² (결정계수, Coefficient of Determination)

한 변수의 분산 중 다른 변수로 설명되는 비율을 나타냅니다.

R² = r²

예: r = 0.7이면 R² = 0.49
  → A 변동의 49%가 B와 관련됨

9. 데이터 수집 및 품질

  • 수집 주기: 6시간마다 GitHub Actions를 통해 자동 수집
  • 데이터 출처: Open-Meteo, USGS, NASA DONKI, CoinGecko, Yahoo Finance, Google Trends, Wikipedia, Reddit 등 공개 API
  • 출처 신뢰도: Official (공식 API), Established (안정적 서비스), Calculated (자체 계산)
  • 최소 표본: 상관분석에 최소 10개 데이터 포인트 필요, 30개 이상 권장

10. 분석 한계 및 주의사항

  • 상관관계는 인과관계를 의미하지 않습니다. 두 변수가 함께 움직이더라도 하나가 다른 하나의 원인이라고 할 수 없습니다.
  • 교란변수(Confounding Variable): 제3의 변수가 두 변수를 모두 영향할 수 있습니다.
  • 정규성 가정: Pearson 상관계수는 데이터가 정규분포를 따른다고 가정합니다. 이상치가 많을 경우 Spearman 사용을 권장합니다.
  • 선형성: Pearson은 선형 관계만 포착합니다. 비선형 관계는 낮은 r로 나타날 수 있습니다.
  • 데이터 지연: API 데이터는 최대 6시간의 지연이 있을 수 있습니다.
  • 과거 기반: 과거 상관관계가 미래에도 유지된다는 보장은 없습니다.
  • 투자 조언 아님: 본 플랫폼의 분석은 투자 조언이 아닙니다.

11. 참고문헌

  • Pearson, K. (1896). "Mathematical contributions to the theory of evolution. III. Regression, heredity, and panmixia." Philosophical Transactions of the Royal Society A, 187, 253-318.
  • Spearman, C. (1904). "The proof and measurement of association between two things." American Journal of Psychology, 15(1), 72-101.
  • Fisher, R. A. (1921). "On the 'probable error' of a coefficient of correlation deduced from a small sample." Metron, 1, 3-32.
  • Benjamini, Y., & Hochberg, Y. (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing." Journal of the Royal Statistical Society B, 57(1), 289-300.
  • Granger, C. W. J. (1969). "Investigating causal relations by econometric models and cross-spectral methods." Econometrica, 37(3), 424-438.