분석 방법론 - APOPHENIA

통계 분석 방법론

APOPHENIA는 데이터 간 상관관계를 정량적으로 분석합니다. 본 문서는 플랫폼에서 사용하는 모든 통계적 방법론을 투명하게 설명합니다.

1. Pearson 상관계수 (Pearson Correlation Coefficient)

두 연속형 변수 간의 선형 관계 강도와 방향을 측정하는 모수적 통계량입니다.

r = Σ[(x_i - x̄)(y_i - ȳ)] / √[Σ(x_i - x̄)² · Σ(y_i - ȳ)²]

범위: -1 ≤ r ≤ +1
  r = +1 : 완벽한 양의 선형 관계
  r =  0 : 선형 관계 없음
  r = -1 : 완벽한 음의 선형 관계

해석 기준:
  |r| >= 0.9 : 매우 강한 상관관계
  |r| >= 0.7 : 강한 상관관계
  |r| >= 0.5 : 중간 상관관계
  |r| >= 0.3 : 약한 상관관계
  |r| <  0.3 : 상관관계 없음

2. Spearman 순위 상관계수 (Spearman's Rank Correlation)

비모수적 방법으로, 이상치(outlier)에 강건하며 비선형 단조 관계도 포착할 수 있습니다. 실제 값 대신 순위(rank)를 사용하여 Pearson 상관계수를 계산합니다.

1. 각 변수의 값을 순위로 변환 (동률은 평균 순위 부여)
2. 순위 배열에 대해 Pearson 상관계수 계산
3. 결과: -1 ≤ ρ ≤ +1

Pearson과 Spearman 결과가 크게 다를 경우, 비선형 관계이거나 이상치의 영향이 클 수 있습니다.

3. 통계적 유의성 검정 (Statistical Significance)

p-value는 t-분포를 이용하여 계산됩니다. 귀무가설(H0: ρ = 0)을 검정합니다.

t = r · √[(n-2) / (1-r²)]
자유도: df = n - 2

유의수준:
  p < 0.001 : 매우 강한 유의성 (***)
  p < 0.01  : 강한 유의성 (**)
  p < 0.05  : 유의성 (*)
  p >= 0.05 : 유의하지 않음

4. 95% 신뢰구간 (Fisher Z Transformation)

Fisher의 Z 변환을 사용하여 상관계수의 신뢰구간을 계산합니다.

Z = 0.5 · ln[(1+r) / (1-r)]     (Fisher Z 변환)
SE(Z) = 1 / √(n-3)                (Z의 표준오차)
95% CI: Z ± 1.96 · SE(Z)

역변환하여 r의 신뢰구간 도출:
r_lower = (e^(2·Z_lower) - 1) / (e^(2·Z_lower) + 1)
r_upper = (e^(2·Z_upper) - 1) / (e^(2·Z_upper) + 1)

표본 크기(n)가 클수록 신뢰구간이 좁아져 추정의 정밀도가 높아집니다.

5. 다중검정 보정 (Multiple Testing Correction)

5.1 Bonferroni 보정

가족별 오류율(Family-Wise Error Rate, FWER)을 제어하는 보수적 방법입니다. 연관 데이터 순위에서 수십~수백 개의 상관관계를 동시에 검정할 때 적용됩니다.

조정된 유의수준: α' = α / m   (m = 검정 횟수)

예: 100개 데이터셋과 비교 시
  α' = 0.05 / 100 = 0.0005
  p < 0.0005인 경우에만 *** 표시

Bonferroni 보정은 매우 보수적이므로, 보정 후 유의하지 않은 결과도 실질적 의미가 있을 수 있습니다.

6. 시차 상관분석 (Lag Correlation / Cross-Correlation)

한 시계열을 시간축으로 이동시켜 최대 상관관계를 보이는 시차를 찾습니다.

범위: -14일 ~ +14일
방법: 각 시차에서 Pearson 상관계수 계산

해석:
  최적 시차 +k일 : A가 B보다 k일 앞서 움직임
  최적 시차 -k일 : B가 A보다 k일 앞서 움직임
  최적 시차  0일 : 동시에 움직임

주의: 시차 적용 시 유효 데이터 수가 줄어들어 통계적 검정력이 감소합니다.

7. 이동 상관계수 (Rolling Correlation)

고정된 윈도우(기본 14일)를 이동시키며 상관계수를 계산하여 시간에 따른 상관관계 변화를 추적합니다.

윈도우 크기: 14일 (기본값)
출력: 각 시점에서의 r 값 시계열

활용:
  - 상관관계의 안정성 확인
  - 구조적 변화(regime shift) 탐지
  - 상관관계가 강화/약화되는 시점 파악

8. R² (결정계수, Coefficient of Determination)

한 변수의 분산 중 다른 변수로 설명되는 비율을 나타냅니다.

R² = r²

예: r = 0.7이면 R² = 0.49
  → A 변동의 49%가 B와 관련됨

9. 데이터 수집 및 품질

수집 주기: 6시간마다 GitHub Actions를 통해 자동 수집
데이터 출처: Open-Meteo, USGS, NASA DONKI, CoinGecko, Yahoo Finance, Google Trends, Wikipedia, Reddit 등 공개 API
출처 신뢰도: Official (공식 API), Established (안정적 서비스), Calculated (자체 계산)
최소 표본: 상관분석에 최소 10개 데이터 포인트 필요, 30개 이상 권장

10. 분석 한계 및 주의사항

상관관계는 인과관계를 의미하지 않습니다. 두 변수가 함께 움직이더라도 하나가 다른 하나의 원인이라고 할 수 없습니다.
교란변수(Confounding Variable): 제3의 변수가 두 변수를 모두 영향할 수 있습니다.
정규성 가정: Pearson 상관계수는 데이터가 정규분포를 따른다고 가정합니다. 이상치가 많을 경우 Spearman 사용을 권장합니다.
선형성: Pearson은 선형 관계만 포착합니다. 비선형 관계는 낮은 r로 나타날 수 있습니다.
데이터 지연: API 데이터는 최대 6시간의 지연이 있을 수 있습니다.
과거 기반: 과거 상관관계가 미래에도 유지된다는 보장은 없습니다.
투자 조언 아님: 본 플랫폼의 분석은 투자 조언이 아닙니다.

11. 참고문헌

Pearson, K. (1896). "Mathematical contributions to the theory of evolution. III. Regression, heredity, and panmixia." Philosophical Transactions of the Royal Society A, 187, 253-318.
Spearman, C. (1904). "The proof and measurement of association between two things." American Journal of Psychology, 15(1), 72-101.
Fisher, R. A. (1921). "On the 'probable error' of a coefficient of correlation deduced from a small sample." Metron, 1, 3-32.
Benjamini, Y., & Hochberg, Y. (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing." Journal of the Royal Statistical Society B, 57(1), 289-300.
Granger, C. W. J. (1969). "Investigating causal relations by econometric models and cross-spectral methods." Econometrica, 37(3), 424-438.