[python] 10. 파이썬 데이터 변경 및 분리하기
01. 데이터 변경하기
data["지역"] = data["지역"].replace("서울특별시", "서울")# 지역 컬럼에서 서울특별시 값을 서울로 변경
data["지역"] = data["지역"].str.replace("서울|경기", "수도권")
# 지역 컬럼에서 서울, 경기 데이터를 포험하고 있으면 수도권으로 변경
data=data.astype('float')
# Series나 DataFrame의 데이터 타입을 변환
data["Age(clean)"] = data["Age"].replace(-1, np.nan)
# Age(clean) 컬럼 추가 후 Age 컬럼 중 값이 -1이면 NaN으로 변경
data.loc[data["Age"] < 0, "Age(clean)"] = np.nan
# Age(clean) 컬럼 추가 후 Age 컬럼 중 값이 0보다 작을 때 값을 NaN으로 변경
02. 데이터 분리하기
data["지역번호"] = data["지역"].replace("서울","02") .replace("경기","031")
# 지역번호 컬럼 추가 후 지역 컬럼 데이터에서 서울은 02로 경기는 031로 입력 (그외엔 NaN)
data.loc[data["지역"].str.contains("서울"), "지역번호"] = "02"
data.loc[data["지역"].str.contains("경기"), "지역번호"] = "031"
# 지역번호 컬럼 추가 후 지역 컬럼 데이터에서 서울은 02로 경기는 031로 입력 (그외엔 NaN)
data.loc[data["지역"] == "서울", "지역번호"] = "02"
data.loc[data["지역"] == "경기", "지역번호"] = "031"
# 지역번호 컬럼 추가 후 지역 컬럼 데이터를 복사하는데 서울은 02로 경기는 031로 입력
data.loc[data["몸무게"]<52, "목표"]= "과체중"
data.loc[(data["몸무게"]>=52) & (data["몸무게"]<=50), "목표"] ="성공"
data.loc[data["몸무게"]>50, "목표"]="저체중"
# 목표 컬럼 추가 후 50에서 52까지는 성공, 50이하는 저체죽, 52이상은 과체중로 입력
02. 빈값 채우기
data['뭄무게_최종'] = data["몸무게"].fillna(75)
# 몸무게_최종 컬럼 추가 후 몸무게 컬럼을 복사하는데 빈 값이 있으면 75로 입력
data.loc[data["몸무게"].isnull(), "몸무게_최종"] = 75
# 몸무게_최종 컬럼 추가 후 몸무게 컬럼에서 빈값에만 75로 입력
댓글
댓글 쓰기