KNIME 기능 설명 – Missing Value
KNIME 데이터 전처리 기능 설명 Missing Value를 활용한 결측치 처리
이번 포스트는 KNIME 데이터 전처리 기능 중 Missing Value 기능 및 사용법에 대한 설명입니다.Missing Value 노드는 데이터셋 내에 있는 결측값을 삭제하거나 치환하는 노드입니다.파일은 서울시 공공데이터 ‘서울특별시 공공자전거 이용정보’를 활용하여 KNIME 데이터 전처리 노드 Missing Value 기능 설명을 하도록 하겠습니다.
이번 포스트는 KNIME 데이터 전처리 기능 중 Missing Value 기능 및 사용법에 대한 설명입니다.Missing Value 노드는 데이터셋 내에 있는 결측값을 삭제하거나 치환하는 노드입니다.파일은 서울시 공공데이터 ‘서울특별시 공공자전거 이용정보’를 활용하여 KNIME 데이터 전처리 노드 Missing Value 기능 설명을 하도록 하겠습니다.
먼저 CSV Reader에 파일을 불러오고 Missing Value 노드를 불러옵니다. 첨부 파일 서울특별시 공공자전거 이용정보(월별)_2018_1_6.zip 파일 다운로드 내 컴퓨터 저장
네이버 MYBOX에 저장
네이버 MYBOX에 저장
네이버 MYBOX에 저장
Missing Value 옵션 설정을 보시면 String, Numeric에 대한 설정을 할 수 있는데 첫 번째 탭은 Default 값을 설정하는 탭으로 설정 시 데이터셋에 들어있는 해당 속성의 Missing Value를 모두 변경해 줍니다.String 설정은 총 5개가 있습니다. Fix Value: 지정된 텍스트 값으로 변경 Most Frequent Value: 가장 많은 값을 갖는 텍스트로 변경 Next Value: 행 기준으로 다음 행에 있는 값으로 변경 Previous Value: 행 기준으로 이전 행에 있는 값으로 변경 Remove Row: 결측값이 있는 행을 삭제 Default 값은 설정해도 되고 설정하지 않아도 됩니다. (Do Notihng)String 설정은 총 5개가 있습니다. Fix Value: 지정된 텍스트 값으로 변경 Most Frequent Value: 가장 많은 값을 갖는 텍스트로 변경 Next Value: 행 기준으로 다음 행에 있는 값으로 변경 Previous Value: 행 기준으로 이전 행에 있는 값으로 변경 Remove Row: 결측값이 있는 행을 삭제 Default 값은 설정해도 되고 설정하지 않아도 됩니다. (Do Notihng)두 번째 탭에서는 컬럼 별로 Missing Value 처리 방법을 지정할 수 있습니다.좌측 컬럼을 선택하여 지정한 옵션에 따라 지정할 수 있습니다. 첫째, ‘연령대별’ Missing Value 대체먼저 ‘연령대별’의 Missing Value를 바꿔보도록 하겠습니다. – [가정] 연령대별 결측값은 80대가 누락된 것이므로 위의 가정을 바탕으로 연령대별 Missing Value 값을 대체해 줍니다.옵션의 두 번째 탭에서 “연령대별”을 선택한 후 Missing Value 값을 80으로 씁니다.Missing Value 노드에 느낌표가 나타나는 이유는 전체 Missing Value를 해결하지 않았다는 Warning이기 때문에 무시하셔도 됩니다.옵션 설정을 완료하고 Value Counter에서 값을 확인하면 결측치(Missing Value) 14,150개가 80대로 바뀐 것을 확인할 수 있습니다. 모든 데이터 세트에서 모든 결측치를 대체한다두 번째는 데이터 세트 전체에서 모든 결측치를 대체하는 방법입니다1) 첫 번째 탭에서 Default String에 80대를 쓰고 실행을 시킵니다. 2) 두 번째 탭은 아무 조건도 입력하지 않는다첫 번째, 두 번째 탭 옵션을 설정하고 실행을 시키면 전체 데이터 세트에서 모든 결측치를 80대로 바꿔줍니다.이 경우 대여소의 번호나 대여소의 결측치를 80대로 바꿔주기 때문에 데이터에 오류가 발생할 수 있습니다.첫 번째, 두 번째 탭 옵션을 설정하고 실행을 시키면 전체 데이터 세트에서 모든 결측치를 80대로 바꿔줍니다.이 경우 대여소의 번호나 대여소의 결측치를 80대로 바꿔주기 때문에 데이터에 오류가 발생할 수 있습니다.만약 첫 번째 탭에서 기본 설정값을 지정하고 두 번째 탭에서 컬럼을 설정하여 Missing Value 처리를 하면 두 번째 탭이 우선적으로 실행되고 나머지 Missing Value는 기본 설정값을 따릅니다.현재 데이터 셋에는 숫자(Numeric)에 대한 Missing Value가 없는데 만약 분석하고자 하는 데이터 내에 숫자 Missing Value가 있다면 아까 String과 동일하게 진행을 해주시기 바랍니다.다른 부분에서는 숫자는 기초 통계치를 치환값으로 쓸 수 있습니다.평균값, 이동평균값, 최빈값, 중앙값, 최소값, 최대값 등으로 Missing Value를 대체할 수 있습니다.* KNIME Missing Value (결측치 처리) Workflow 공유 * 첨부파일 KNIME_Missing Value.knwf 파일을 다운로드하여 컴퓨터를 저장네이버 MYBOX에 저장네이버 MYBOX에 저장이상으로 KNIME 데이터 전처리 노드인 Missing Value의 기능 설명을 마치겠습니다.감사합니다。