범주형 자료 - 원핫인코딩 원핫인코딩이란 모델링을 할 때 범주형 변수가 있다면 0과 1등으로 표현하는 것을 말합니다. 즉 도시라는 feature에서 '서울', '부산, '대구'가 있다면 이를 0과 1 등으로 표현합니다. 범주형 자료에도, 순서가 없는 위의 사례같은 명목형과, 순서가 있는 순서형으로 분류됩니다. 주의 할점은 도시와 같이 대소 관계의 의미가 없는데, 아래와 같이 순서형으로 하면 안된다는 것입니다. 원한인코딩 주의점 카테고리가 너무 많으면(high cardinality) 너무 많은 컬럼이 생성되므로, 적합하지 않을 수 있습니다. Python의 Pandas를 이용한 원핫인코딩 ## get_dummies를 이용한 원핫인코딩 import pandas as pd df_dummy = pd.get_dum..