본문 바로가기
카테고리 없음

파이썬 pandas 원-핫 인코딩 설명

by 퍼포먼스마케팅코더 2023. 8. 11.
반응형

원-핫 인코딩

원-핫 인코딩(One-Hot Encoding)은 범주형 변수를 표현하는 방법 중 하나로, 각 범주를 특정한 벡터로 표현하는 방식입니다. 이 때, 해당 범주의 위치만 1로 표시되고 나머지는 0으로 표시됩니다. 이로써 범주형 데이터를 모델이 처리할 수 있는 형태로 변환할 수 있습니다.

Pandas 라이브러리를 사용하여 원-핫 인코딩을 쉽게 수행할 수 있습니다. 아래 예제를 통해 설명하겠습니다.

Pandas 라이브러리 불러오기

import pandas as pd

예제 데이터 프레임 생성

df = pd.DataFrame({
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Gender': ['Female', 'Male', 'Male', 'Female'],
'Age': [25, 30, 22, 28]
})

df

'Gender' 열에 대해 원-핫 인코딩 수행

df_one_hot = pd.get_dummies(df, columns=['Gender'])

df_one_hot

예제

먼저, Pandas 라이브러리를 불러오고 범주형 변수를 포함하는 간단한 데이터 프레임을 생성하겠습니다.

위에서 생성한 데이터 프레임에는 'Name', 'Gender', 'Age'라는 3개의 열이 있으며, 'Gender' 열이 범주형 변수입니다.

이제 'Gender' 열을 원-핫 인코딩으로 변환하겠습니다. Pandas의 `get_dummies` 함수를 사용하면 이 작업을 매우 간단하게 수행할 수 있습니다.

원-핫 인코딩을 수행한 결과, 'Gender' 열이 'Gender_Female' 및 'Gender_Male' 두 개의 열로 나뉘어졌습니다. 이때 각 행의 성별에 해당하는 열의 값은 1이고, 나머지 열의 값은 0입니다.

이러한 방식으로 원-핫 인코딩은 범주형 변수를 여러 개의 이진 변수로 변환하여, 모델이 이해할 수 있는 형태로 만듭니다. 이는 특히 머신러닝 모델을 학습시킬 때 유용한 전처리 방법 중 하나입니다.

반응형

댓글