01. 모듈 사용 * import 모듈 : 모듈 전체를 불러 불러옴 import pandas as pd # 파이썬의 데이트 분석 패키지 판다스를 불러와 pd라고 이름 정함 import numpy as np # 수학연산을 편하게 해주는 패키지를 불러와 np라고 이름 정함 import tensorflow as tf # 구글에서 만든 기계학습과 딥러닝 라이브러리를 불러와 tf라고 이름 정함 * from 모듈 import 메소드/변수 : 해당 모듈에 대한 특정 메소드나 변수를 불러옴 from sklearn.metrics import make_score # sklearn 패키지 metrics 모듈중 make_score 함수를 불러옴 from sklearn.ensemble import RandomForestRegressor # sklearn 패키지 ensemble 모듈 중 RandomForestRegressor 함수를 불러옴 from sklearn.model_selection import cross_val_score # sklearn 패키지 model_selection 모듈 중 cross_val_score 함수를 불러옴 from IPython.display import set_matplotlib_formats # IPython 옵션을 설정할때 사용 02. 시각화 사용 % matplotlib inline # 데이터 시각화 패키지를 사용(최신 버전은 안 띄워줘도 됨) import matplotlib.pyplot as plt # 데이터 시각화 패키지 matplotlib를 불러와 plt라고 이름 정함. (세부적인 옵션까지 조정 가능...
01. 보여줄 데이터 양 설정 pd.options.display.max_columns=100 # 판다스 데이터프레임(DataFrame)을 출력할 때, 최대 출력할 수 있는 컬럼을 100으로 설정함 pd.set_option('display.max_rows', 100) # 화면에 출력하는 데이터 프레임의 최대 row 수를 100으로 설정 pd.set_option('display.max_columns', 100) # 화면에 출력하는 데이터 프레임의 최대 column 수를 100으로 설정 pd.options.display.max_columns = 100 # 판다스는 테이블을 출력할 때, row나 column이 일정 개수 이상 넘으면 생략해서 보여줌 # column을 다보고 싶을경우 옵션을 주어 생략되지 않도록 가능 02. 불러올때 간단한 설정 data = pd.read_csv("data.csv", parse_dates=["date"]) # date 컬럼을 날짜 컬럼으로 해석할 수 있게 parse_dates 옵션 사용 pd.read_csv("data.csv", index_col="Name") # Name 컬럼을 인덱스로 지정 (인덱스는 중복값이 없고, 유니크해야 함) pd.read_csv("data.csv", header=None) # headrr=None 사용시 판다스에서 자동으로 열(column) 번호를 컬럼 명으로 사용) pd.read_csv("data.csv", index_col="Name", usecols=["Name", "Age"]) # 인덱스는 Name로 설정하고, 필요한 데이터 컬럼(Name, Age)만 불러올 수도 있다. pd.read_csv('data.csv', nrows=2) # 2줄만 보여짐. (원하는 행만 불러올수도 있다. 0번과 1번행이...
01. 파일 불러오기 pd.read_csv("data/data1.csv") # 같은 폴더 안에 데이터 파일이 있는경우 ( data 폴더 안 data1.csv을 불러옴) pd.read_csv("./data/data1.csv") # 같은 폴더 안에 데이터 파일이 없는 경우 ( ../ 상위 이전폴더를 의미 ) path="C:/ .... /data.csv" pd.read_csv(path) # 컴퓨터 절대 경로(환경 변수) 연결, 공유시 사용하기 좋음 (판다스는 \를 /로 변경) url="https://... /data.csv" pd.read_csv(url) # URL로 파일 불러오기 import seaborn as sns sns.load_dataset('titanic') # 데이터셋 데이터 불러오기 ( https://github.com/mwaskom/seaborn-data ) # 간단하게 시각화 연습시 사용하기 좋음 02. DB 불러오기 import sqlite3 connect = sqlite3.connect('data/data.db') # data폴더의 data.db에 접속을 해주세요. query="SELECT * FROM 'data'" # data 테이블에서 모든 칼럼을 가져오는 쿼리 (테이블명은 (') 사용) pd.read_sql(query, connection) # 판다스로 물러옴 03. 파일 저장하기 data.to_csv("data.csv", index= False ) # 작업한 data 데이터를 data.csv 파일명으로 저장 # index=False는 인덱스 값이 저장이 안됨 plt.savefig("image_1.jpg", dpi=300) # 그래프 저장 04. 현재 폴더 확인 import os print (os.getcwd())
댓글
댓글 쓰기