R을 사랑한 느림보 데이터 분석가

TIL #2408 본문

커리어 일기

TIL #2408

알럽뷰 2024. 8. 9. 15:43

 

제안서를 쓰면서 여기저기 써칭해보면서 TIL

 


TIL #240809

 

ROC-AUC, PR-AUC 개념 비교 정리

 

TPR = Recall = Sensitivity: 실제 1의 정확도

FPR: 실제 negative(0) 중 positive(1)로 잘못 예측한 비율 

Precision: 예측 1의 정확도

 

ROC-AUC: x축 FPR, y축 TPR

PR-AUC: x축 TPR, y축 Precision

 

ROC와 PR

threshold(임계값)에 관한 해석

 

Cumulative Gains and Lift Charts

 

lift는 모델의 효율성을 측정하는 방법

모델을 적용했을 때와 적용하지 않았을 때 얻은 결과의 비율로 계산

누적이익 차트와 리프트 차트

 

[ML] 분류 성능 지표: Precision(정밀도), Recall(재현율), F1-score

 

정확도

- 분류 모델을 평가하기에 가장 단순한 지표

- 불균형한 클래스를 가진 데이터셋을 평가하기는 어렵다는 단점

 

Precision-Recall Curve

- Precision과 Recall은 trade-off 관계

- decision threshold를 통해 트레이드오프관계를 조절함

- 분류 모델의 전반적인 성능을 파악하기는 쉬우나, 다른 두 분류 모델 간의 정량적 성능 비교가 어려움

 

AP(Average Precision)

- Precision-Recall Curve에서 그래프 아래쪽 면적을 AP로 정의

- PR curve를 interpolation(보간법)하여 단조 감소하는 형태로 변환 후에 면적을 계산

- Multi-class 분류 모델에서는 각 클래스의 AP를 평균한 mAP(mean Average Precision)를 정의, 컴퓨터 비전 분야의 object detection알고리즘 평가 많이 사용

 

TNR = specificity = selectivity = 특이도

FPR = Fall-out = 1-TNR

 

PR 커브와 ROC 커브는 언제 쓰는지?

- ROC 커브는 클래스 불균형한 데이터에서는 모델 성능 저하를 반영하기 힘들다는 단점이 있음

- 데이터셋을 고려하지 않는 일반적인 상황에서 분류 모델 성능을 확인할 때 사용

- PR 커브는 클래스 불균형이 심한 데이터셋을 통해 분류 모델 성능을 분석할 때 사용할 수 있음

 

 

Logistic 예측 모형에서의 변수 선택 방법 - Information Value

 

로지스틱 회귀 모형을 만들 때 변수 선택 방법론

설명 가능하게 하는 것이 목적이 아닌, 예측을 잘하기 위해 쓰는 방법

IV(Information Value)

WoE(Weight of Evidence)

 

IV

1과 0의 비율 차이를 계산함

불균형할 수록 값이 커짐

 

WoE

미미하게 표현되는 수치를 드라마틱하게 과장되게 표현하기 위해 로그를 취함

비율의 비율로 해서 Log를 씌우는 것 Log(Odds)

Logit

 

불균형이 없을수록 IV가 매우 작으며, Logistic 회귀를 해 봐야 큰 의미가 없음

 

로지스틱 회귀모형을 신용평가모형에 적용했을 때

불균형을 이루면 좋겠다는 것이 희망사항 

 

데이터 비닝과 WOE(Weight of Evidence), IV(Information Value)

 

구간(binning)

 

WoE = 양성 클래스 구성비율/음성 클래스 구성비율에 자연로그를 취한 값

 

자연로스는 자연상수 e를 밑으로 하는 로그 함수

y=ln(x)

 

자연로그는 비선형 함수, 변수 간의 선형 관계를 비선형으로 변환하여 모델의 예측력을 향상시킴

트리기반 모델은 입력 특성의 비선형성을 자동으로 학습할 수 있기 때문에, 트리기반 모델에는 사용하지 않음

 

[R실습]Information Value 산출하기

 

IV 수차기 클수록 잘 구분할 수 있는 정보량이 많은 것, 작을수록 잘 구분할 수 있는 정보량이 적은 것

 

우량 고객군의 성향이 높은 구간은 1~+무한대 값을 가기조, 불량 고객군의 성향이 높은 구간은 0~1값을 가짐

불공평한 범위값을 해결하기 위해 자연로그를 취하는 것

 

우량 고객군은 1~무한대 값, 불량 고객군은 -무한대~1 값을 가짐 

 

상관분석 : 회귀분석 = 상관관계 : 인과관계?