728x90
반응형
전처리의 핵심기능
이상값 또는 결측값이 데이터셋에 포함될 때 인스턴스 치환 및 삭제, 속성 위치 변경 및 삭제 등의 기능을 제공.
필터링을 통한 분류기 성능을 향상 시킬 수 있음
-
remove with values
choose - remove with values 선택
remove with values 창을 클릭 후
attributeindex - 3
nominallndlces - 1
입력
결과 - 세번째 속성( humidity) 필드의 1번째 라벨인 high에 있는 데이터를 다 지워라,
결과적으로 7건의 데이터가 삭제된다.
undo 버튼 클릭하면 원복 됩니다.
----------
시각화
학습전: 입력 데이터셋의 속성별 분포도를 육안으로 확인 가능, 유용한 속성들을 식별하기 위해 사용. 분류 예측값은 볼 수 없다.
Jitter 를 증가하면 거리가 가까운 군집된 인스턴스들을 묶어서 보여준다.
인스턴스를 선택 방법은 클릭, 사각형 선택, 무작위 선택 등이 있음
학습후: visualize error 선택시 분류예측 class와 입력 데이터셋의 속성간의 분포를 식별할 수 있다.
//
학습후 :
visualize classlfler errors 선택
중심을 기준으로 양옆으로 퍼져 있는 것이 이상값
중심값 클릭 시, 데이터의 항목. 내역이 보인다
instance:92 //데이터 92번째
instance: 109 //데이터 109번째
의 데이터가 이상값이다.
728x90