rpart 예제

  • 0

rpart 예제

이 프로세스는 실제로 모든 회귀 또는 분류 모델에 적용할 수 있습니다. 그러나 분산이 높은 모델에 대한 가장 큰 개선점을 제공합니다. 예를 들어 선형 회귀 및 다중 적응 회귀 스프라인과 같은 보다 안정적인 파라메트릭 모델은 예측 성능이 덜 개선되는 경향이 있습니다. 따라서 기본적으로 rpart는 11개의 분할, 12개의 터미널 노드 및 0.272의 교차 검증된 오류로 일부 자동 조정을 수행하고 있습니다(이 오류는 PRESS 통계와 동일하지만 MSE는 아님). 그러나 모델 성능을 향상시키기 위해 추가 조정을 수행할 수 있습니다. 예를 들어, 실린더(cyl) 및 마력(hp)을 기준으로 자동차가 평균할 갤런당 마일을 예측하는 것을 고려해 보겠습니다. 모든 관측값은 이 트리를 통과하고 특정 노드에서 평가되며 대답이 “예”인 경우 왼쪽으로 진행하거나 대답이 “아니오”인 경우 오른쪽으로 진행합니다. 따라서 먼저 6개 또는 8개의 원통이 있는 모든 관측값은 왼쪽 분기로 이동하고 다른 모든 관측값은 오른쪽 분기로 진행됩니다. 다음으로 왼쪽 분기는 마력으로 더 분할됩니다. 마력이 192보다 큰 6 개 또는 8 개의 실린더 관측은 왼쪽 가지로 진행; 192마력 미만의 사람들은 오른쪽으로 진행합니다. 이러한 분기는 예측응답 값을 포함하는 터미널 노드 또는 리프로 이어집니다.

기본적으로, 6 또는 8 실린더 (맨 오른쪽 분기) 평균 27 mpg가없는 모든 관측 (이 예에서 자동차). 6 개 또는 8 개의 실린더를 가지고 있고 192 마력 (극좌 측점) 평균 13 mpg이상을 가진 모든 관측. 결과 rpart 개체의 변수.importance 특성을 참조하여 모델에서 각 변수의 중요도를 볼 수 있습니다. rpart 문서에서 “변수 중요도의 전체 척도는 주요 변수였던 각 분할 에 대한 분할 측정값의 장점을 합한 것입니다…” 또한 rpart()에 가중치 인수를 지정하여 트리 의 구성에 대한 각 관측값에 가중치를 부여할 수도 있습니다. rpart.control에 대한 인수는 rpart 호출에 지정될 수도 있습니다. 유효한 인수 목록에 대해 검사됩니다. 다시 한번 우리는 단지 루트 노드로 남아 있습니다. 내부적으로 rpart는 트리의 복잡성이라는 것을 추적합니다. 복잡성 측정값은 트리의 크기와 대상 변수의 클래스를 구분하는 트리의 기능의 조합입니다.

트리를 재배하는 데 있어 가장 좋은 다음 분할이 트리의 전반적인 복잡성을 일정 만큼 줄이지 않으면 rpart는 성장 프로세스를 종료합니다.


Recent Post

큐 스택 예제

마크업 예제

리눅스 qt 예제

Categories

  • No categories
Website is Protected by WordPress Protection from eDarpan.com.