결정트리

→ 예/아니오로 답할 수 있는 질문들의 답을 따라가면서 데이터를 분류하는 알고리즘

스크린샷 2024-07-31 오후 4.23.18.png

<aside> 🔥 결정 트리 정리


  1. 하나의 시작 지점에서 퍼져나가는 모습이 마치 나무와 비슷
  2. 한 단계 내려갈 때마다 좌우측 방향 선택

⇒ 한 지점에서 시작해서 점점 넓게 퍼져 나가는 것 : 트리

따라서 이름이 결정 트리가 됨!

</aside>

지니 불순도(Gini Impurity)

→ 데이터셋 안에 서로 다른 데이터들이 얼만큼 섞여있는지 확인하는 척도

→ 데이터셋이 정확히 얼마나 불순하지를 숫자로 표현해줌

→ 지니 불순도가 작을수록 데이터셋이 순수하고, 클수록 데이터셋이 불순함

[ 결정 트리 목적 ]

학습 데이터를 직접 분류해보면서, 데이터들을 가장 잘 분류할 수 있는 노드들을 찾아내는 것

→ 결정 트리에서는 이 목적을 달성하기 위해 지니 불순도를 활용함

$$ GI = 1 -p(flu)^2 -p(not flu)^2 $$