원-핫 인코딩(One-Hot Encoding)은 범주형 변수의 각 고유값을 별도의 이진(0/1) 열로 변환합니다.
해당 값이면 1, 아니면 0으로 표현해 머신러닝 모델이 범주를 수치로 처리할 수 있게 합니다.
아래에서 직접 입력하거나 프리셋을 선택해 결과를 확인하세요.
데이터 입력
쉼표(,) 또는 줄바꿈 구분 · 대소문자 구분 · 공백 자동 제거
⚠ 고유 카테고리가 많을수록 열이 늘어나 차원의 저주(Curse of Dimensionality)가 발생할 수 있습니다.
카테고리가 많은 열은 Embedding 또는 Target Encoding을 고려하세요.
레이블 인코딩 (Label Encoding) — 순서 가정 주의
레이블 인코딩은 범주에 정수를 부여합니다. 빠르고 간단하지만,
모델이 0→1→2처럼 순서가 있다고 잘못 해석할 수 있습니다.
거리 기반 모델(선형회귀, KNN 등)에는 원-핫 인코딩을 사용하세요.
원-핫 인코딩
명목형(Nominal) 범주에 사용
Red→[1,0,0] Green→[0,1,0] Blue→[0,0,1]
✅색상·도시·브랜드처럼 순서가 없는 범주
✅선형회귀, SVM, 신경망 등 거리 기반 모델
✅범주 개수가 적을 때 (≤ 10~20)
⚠️카테고리 수만큼 열이 늘어남 — 고카디널리티 주의
선형회귀
신경망
SVM
KNN
레이블 인코딩
순서형(Ordinal) 범주에 사용
S→0 M→1 L→2 XL→3
✅사이즈·등급처럼 순서 의미가 있는 범주
✅트리 기반 모델 (랜덤포레스트, XGBoost 등)
✅카테고리 수가 많을 때 (메모리 절약)
⚠️명목형 범주에 쓰면 잘못된 순서 관계 학습
랜덤포레스트
XGBoost
LightGBM
더미 변수 함정
선형 모델은 k−1 열만 사용
drop_first=True (pandas)
drop='first' (sklearn)
⚠️k개 범주 → k열이면 완전 다중공선성 발생
✅마지막 열을 제거하면 나머지로 추론 가능
✅트리 모델은 영향 없음 — drop 불필요
선형회귀
로지스틱회귀
CSV 파일을 업로드하고 범주형 열을 선택하면 원-핫 인코딩을 적용해 새 CSV로 저장합니다.
숫자형 열은 그대로 유지되며, 원본 열 유지 여부와 최대 카디널리티(고유값 개수 상한)를 설정할 수 있습니다.
① CSV 파일 업로드
📂
CSV 파일을 드래그하거나 클릭해서 선택
UTF-8 / EUC-KR 인코딩 지원 · 최대 10MB
② 인코딩할 열 선택 & 옵션
문자형(범주형) 열만 선택 가능합니다. 클릭으로 선택·해제하세요.
옵션
파란 열 = 새로 생성된 이진 열