반응형

파이썬 기초 다지기 for 데이터 분석

python
python

숫자

e를 사용해서 매우 크거나 작은 숫자를 표현할 수 있다. 지수연산은 **이고, 제곱근 함수대신 지수 부분에 0.5를 입력해서 제곱근 결과를 알 수 있다. 

77e3 #77*10*3 = 77000
123e-3 #123*10^(-3) = 0.123

2**3 #2*2*2=8
16**0.5 #root 16 = 4

튜플

원소가 하나인 튜플을 생성할 땐 쉼표를 꼭 넣어줘야 한다. 쉼표가 없으면 소괄호로 보고 튜플 생성 안된다.

- 튜플은 내부 원소를 수정할 수 없다.

- 수정하고 싶으면 새로운 튜플을 만들어야 한다.

(777,)

딕셔너리

딕셔너리 dictionary는 키(key) 값 value 쌍으로 구성된다.

dic_01 = {"key1": 1, "key2": [200, 300]}
dic_01["key2"] #[200,300]
dic_01.keys()
dic_01.values()

NumPy

Numeric Python 각종 수치 연산을 지원하는 파이썬 라이브러리이다.

import numpy as np
np.mean([1,2,3,4]) #2.5 
np.var([1,2,3,4,5]) #2.0
np.std([1,2,3,4,5]) #1.4142...

np.exp(1) #2.7182...

Pandas

NumPy기반 라이브러리로 독자적인 객체 기반 고급 데이터 핸들링 함수를 지원하는 라이브러리이다. 시리즈는 주로 1차원 리스트, 어레이에서 사용하고, 데이터 프레임은 주로 2차원 리스트, 어레이에서 사용한다.

시리즈 Series: 각각의 원소에 라벨을 붙일 수 있다는 장점이다.

import pandas as pd

pd.Series([5,6,7])
pd.DataFrame([[1,2,3],[4,5,6]])

Series

dtypes로 어떤 type로 이루어진 시리즈인지 알 수 있고, describe로 다양한 통계 결과를 볼 수 있다.

import pandas as pd

series = pd.Series([5,6,7])
series.dtypes #dtype('int64')
series.describe()
#count    3.0
#mean     6.0
#std      1.0
#min      5.0
#25%      5.5
#50%      6.0
#75%      6.5
#max      7.0
#dtype: float64

dataframe

import pandas as pd

dataFrame = pd.DataFrame([[1,2,3],[4,5,6]])
dataFrame.shape #(2,3)
dataFrame.describe() #count, mean, std, min, 25%, 50%, 75%, max

csv 파일 읽기

df = pd.read_csv("sample.csv")
df = pd.read_excel("sample.xlsx")

csv 파일 저장

df.to_csv("myCsv.csv")
반응형