본문 바로가기

Programming/Python_Etc

Python Dataframe 주요 함수 정리

반응형

Python의 주요 사용처가 엑셀, CSV 등의 데이터를 이용한 데이터 분석인데, 매번 함수를 찾아다니기 귀찮아서 한곳에 모아놓습니다. 

df=pd.read_csv('test.csv')
df.to_csv('test.csv', index=False)
df.head()
df.tail()
df.info()
df.dtypes
df.shape
df.describe()
df['나이'].describe()
df['나이'].value_counts() # 컬럼 값 분포
df['나이'].value_counts().index # 시리즈 인덱스
df['나이'].value_counts().tolist()
df['나이'].value_counts().reset_index() # 인덱스를 하나의 칼럼으로..
df['나이'].sort_values() # 특정 컬럼 정렬
df.sort_values(by=['나이','잔고']) # 특정 컬럼 정렬2
df['나이대']=df['나이'].apply(lambda x : in_business_age_name(x)) # Apply 함수 사전 정의 필요

df.isna()
df.isnull()
df.fillna(0)
df.rename(columns={'컬럼_origin','컬럼_new'}, inplace=True)
df.T
df.loc[0:1, 'name':'addr'])
df.iloc[:2]
df.iat[2,2]
df.at[2,'컬럼1']
df.drop('컬럼4', axis=1, inplace=True) # 컬럼4가 삭제됨
df.drop(4, inplace=True) # 인덱스4가 삭제됨
df['컬럼1'].unique()

df.tolist()
df.dict()
df.groupby('나이').count()
df.corr(method='pearson')
df.cov(min_periods=None, ddof=1)

df_col = pd.concat([df1, df2]) # 아래로 합침
df_col = pd.concat([df1, df2], axis=1) #오른쪽으로 합침

table=pd.pivot_table(df, values='국어', index=['반'], columns=['전공'], aggfunc=np.mean)
반응형