원-핫 인코딩(One-Hot Encoding)은 범주형 변수의 각 고유값을 별도의 이진(0/1) 열로 변환합니다. 해당 값이면 1, 아니면 0으로 표현해 머신러닝 모델이 범주를 수치로 처리할 수 있게 합니다. 아래에서 직접 입력하거나 프리셋을 선택해 결과를 확인하세요.
데이터 입력
쉼표(,) 또는 줄바꿈 구분 · 대소문자 구분 · 공백 자동 제거
인코딩 결과 행렬
원-핫 인코딩 행렬 — 열 이름 = 범주값
레이블 인코딩과 비교
레이블 인코딩 (Label Encoding) — 순서 가정 주의

레이블 인코딩은 범주에 정수를 부여합니다. 빠르고 간단하지만, 모델이 0→1→2처럼 순서가 있다고 잘못 해석할 수 있습니다. 거리 기반 모델(선형회귀, KNN 등)에는 원-핫 인코딩을 사용하세요.

언제 어떤 인코딩을 쓸까?
원-핫 인코딩
명목형(Nominal) 범주에 사용
Red→[1,0,0] Green→[0,1,0] Blue→[0,0,1]
색상·도시·브랜드처럼 순서가 없는 범주
선형회귀, SVM, 신경망 등 거리 기반 모델
범주 개수가 적을 때 (≤ 10~20)
⚠️카테고리 수만큼 열이 늘어남 — 고카디널리티 주의
선형회귀 신경망 SVM KNN
레이블 인코딩
순서형(Ordinal) 범주에 사용
S→0 M→1 L→2 XL→3
사이즈·등급처럼 순서 의미가 있는 범주
트리 기반 모델 (랜덤포레스트, XGBoost 등)
카테고리 수가 많을 때 (메모리 절약)
⚠️명목형 범주에 쓰면 잘못된 순서 관계 학습
랜덤포레스트 XGBoost LightGBM
더미 변수 함정
선형 모델은 k−1 열만 사용
drop_first=True (pandas)
drop='first' (sklearn)
⚠️k개 범주 → k열이면 완전 다중공선성 발생
마지막 열을 제거하면 나머지로 추론 가능
트리 모델은 영향 없음 — drop 불필요
선형회귀 로지스틱회귀
CSV 파일을 업로드하고 범주형 열을 선택하면 원-핫 인코딩을 적용해 새 CSV로 저장합니다. 숫자형 열은 그대로 유지되며, 원본 열 유지 여부와 최대 카디널리티(고유값 개수 상한)를 설정할 수 있습니다.
① CSV 파일 업로드
📂
CSV 파일을 드래그하거나 클릭해서 선택
UTF-8 / EUC-KR 인코딩 지원 · 최대 10MB