AI

[AI 도전기 9일차] 결정 트리에서의 이진 분류에 대해 알아보자 !

alsruds 2024. 4. 4. 17:37

 

 

와인 예제를 이용해 결정 트리를 알아보자 🍷

 

https://www.youtube.com/watch?v=tOzxDGp8rsg&list=PLJN246lAkhQjoU0C4v8FgtbjOIXxSs_4Q&index=11


 

11강. 로지스틱 회귀로 와인 분류하기 & 결정 트리

📍 시나리오

캔 안에 들어있는 음료가 레드 와인인지 화이트 와인인지 알고 싶다 !!

- 가지고 있는 데이터 : 알코올 도수, 당도, pH
- 레드 와인이 음성 클래스 : 0
- 화이트 와인이 양성 클래스 : 1
- 이진 분류

 

 

💡 결정 트리

 

- 굉장히 높은 정확도를 가지고 있다

- max_features : 사용할 특성의 개수 (현재 3개)

  if) none → 모든 특성 사용

 

- max_depth : depth 크기 지정 가능

- 양성 클래스의 개수가 많을수록 노드의 색깔이 진하다

- filled = True : 색칠 기능

  - 파란색 : 양성 클래스

  - 붉은색 : 음성 클래스

 

 

💡 노드 분할하기 : 지니 불순도

 

- 어떤 기준으로 노드를 분할할 것인가?

➡️ ' 부모의 불순도 - 자식의 불순도 ' 가 가장 크게 되도록

➡️ leaf 노드가 순수 노드가 되도록

 

 

 

 

 

 

💡 노드 분할하기 : 가지치기 (Pruning)

 

- 분할을 하는 기준을 학습한다

- 🌟 특성의 scale 을 조정할 필요가 없다 → 전처리가 필요없다!

- 특성 중요도 (feature_importances_)

  - sugar 가 제일 중요하다

  - pH 는 거의 영향을 미치지 않는다