→ 예/아니오로 답할 수 있는 질문들의 답을 따라가면서 데이터를 분류하는 알고리즘
<aside> 🔥 결정 트리 정리
⇒ 한 지점에서 시작해서 점점 넓게 퍼져 나가는 것 : 트리
따라서 이름이 결정 트리가 됨!
</aside>
→ 데이터셋 안에 서로 다른 데이터들이 얼만큼 섞여있는지 확인하는 척도
→ 데이터셋이 정확히 얼마나 불순하지를 숫자로 표현해줌
→ 지니 불순도가 작을수록 데이터셋이 순수하고, 클수록 데이터셋이 불순함
[ 결정 트리 목적 ]
학습 데이터를 직접 분류해보면서, 데이터들을 가장 잘 분류할 수 있는 노드들을 찾아내는 것
→ 결정 트리에서는 이 목적을 달성하기 위해 지니 불순도를 활용함
$$ GI = 1 -p(flu)^2 -p(not flu)^2 $$