Cording/Python
-
Jupyter-html tableCording/Python 2021. 1. 19. 21:51
import pandas as pd df = pd.read_html('https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table') print(df) df[1] import pandas as pd df = pd.read_html('https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table', header=0, index_col=0) print(df) df[1] summer = df[1].iloc1:,:5] summer summer.colums = ['경기수', '금', '은', '동', '계'] summer.sort_values('금', ascending=False) summer.to_exc..
-
Jupyter-data, csvCording/Python 2021. 1. 17. 02:47
%matplotlib notebook import pandas as pd import matplotlib.pyplot as plt from matplotlib import font_manager,rc #한글 깨짐 방지 font_info='C:/windows/fonts/malgun.ttf' font_name=font_manager.FontProperties(fname=font_info).get_name() rc('font",family=font_name) data=pd.read_csv('accidentdata.csv') data.head(5) d2=data[(data.사상자수>=3)] d2 d3=d2.groupby('요일') d3['사상자수'].sum().plot(kind='bar',title='2012-..
-
Jupyter-data filteringCording/Python 2021. 1. 9. 00:59
#txt 파일 읽어오기 df2=pd.read_csv("푼다.txt",engine='python') df2 df2=pd.read_table("푼다.txt",engine='python',sep=',') df2 import pandas as pd df=pd.read_excel('highwaybus.xlsx',sheetname='highway',encoding='cp949') df.head() # 필터링1=우등 고속 데이터 대상 df_ex=df[df.차종=='우등'] df_ex.head() # 필터링2=경부선 총이용인원 1000명 이상인 데이터 분석 df_gx=df[(df.선별=='경부선')&(df.총이용인원>=1000)] df_gx.head(3) df_gx.sort_values(by='총이용인원',ascend..
-
Jupyter_CSVCording/Python 2021. 1. 7. 22:37
import pandas ad pd mysource={'시도':['서울','경기','인천','부산','대전'],'구분':['특별시','도','광역시','광역시','광역시'],'인구:['990만명','1300만명','350만명','300만명','150만명'],'면적':[605.2,"10,171","1,029",767.4,539.8]} df=pd.DataFrame(mysource) # CSV 파일로 저장 df.to_csv('sample1932.csv') # CSV 파일을 로딩 df1=pd.read_csv('sample1031.csv,encoding='cp949'') df1 # 칼럼명을 지정 df1=pd.read_csv('sample1031.csv,names=['no','구분','면적','시도','인구'],e..
-
Jupyter-결측값Cording/Python 2021. 1. 3. 05:24
from pandas import DataFrame df=DataFrame(~) df.sum() df.mean() df.describe() df.cumsum() # 누적 합계 df.sum(axis=1) # series 형태로 생성 df.거래처.unique() # 순수 df.['거래처'].value_counts() import numpy as np import pandas as pd df=pd.DataFrame(np.ones((4,4)),index=['a','b','c','d']) df df[1]['b']=np.nan df[3]['b':]=np.nan df pd.isnull(df) pd.notnull(df) df[3].isnull().sum() df2=df.dropna() df2 df3=df.dropna(..