[python] 6. 파이썬 데이터 간단히 확인하기

 01. 데이터 간단히 확인


data.shape  # 행과 열의 갯수 확인
data.head()  데이터의 상위 5개의 행을 보여줌
data["Name"].head()  선택한 컬럼의 상위 5개의 행을 보여줌
data[["Name", "Age"]].head()  선택한 컬럼들의 상위 5개의 행을 보여줌
data.tail(1)  데이터의 하위 1개를 보여줌 (() 안에 숫자만큼 보여줌)
data.info  전체 데이터를 그대로 나열
data.info()  전체 데이터 내용을 컬럼별로 보여줌 (데이터 갯수, 데이터 타입 등)
data.dtypes  데이터 타입 확인 (int:정수형/float:실수형/str:문자형=object)
data.index  인덱스값 확인
data.columns  컬럼값 확인
data.values  각 행을 기준으로 나열


02. 데이터 상세 확인

data["지역"].unique()  지역 컬럼 데이터의 종류 확인
data["지역"].nunique()  지역 컬럼 데이터 종류의 총 갯수 확인
data["지역"].value_counts()  지역 컬럼 데이터의 종류별로 갯수 확인
data["지역"].value_counts(normalize=True)  지역 컬럼 데이터의 종류별 비율 확인


02. 데이터 수치 확인

data.count()  각 컬럼의 데이터 NaN이 아닌 값의 갯수
data.isnull().sum()  각 컬럼의 데이터의 NaN 값의 갯수의 합
data.max()  각 컬럼의 최대값
data.min()  각 컬럼의 최소값
data.mean()  각 컬럼의 평균값
data.sum()  각 컬럼의 데이터 합
data.sum(axis=0)  각 컬럼의 데이터 합
data.sum(axis=1)  각 행의 데이터 합
data.median()  각 행의 중간값
data.std()  각 컬럼의 표준편차 계산
data.var()  각 컬럼의 분산을 계산
data.cumsum()  지역 컬럼을 각 행을 차례대로 누적합 (0 부터 계산)
data.cumprod()
  지역 컬럼의 각 행을 차례대로 누적곱 (1부터 계산)
data.quantile()  각 컬럼의 특정 사분위수애 해당하는 값
data.isnull().sum()  여러개를 겹쳐서 연산할 수 있다.


03. 데이터 상세 수치 확인

data["몸무게"].describe()  count, mean, std, min, 25%, 50%, 75%, max 값이 한번에 보임
data["몸무게"].sum()  몸무게 컬럼의 합 



댓글

이 블로그의 인기 게시물

[python] 1. 파이썬 라이브러리 설치 및 버전확인

[python] 4. 파이썬 파일 불러올때 설정 (데이터양, 인덱스 설정)

[파이썬 실습] 랜덤 타자 게임 만들기 - while, random, time