데이터 프레임은 데이터를 다룰 때 가장 많이 사용하는 데이터 형태로, 행과 열로 구성된 사각형 모양의 표처럼 생겼다.
세로로 나열되는 열은 속성을 나타낸다. 열은 컬럼column 또는 변수variable 라고 불린다.
가로로 나열되는 행은 각 정보를 나타낸다. 행은 로row 또는 케이스 case 라고 불린다.
어떤 한 것의 정보는 가로 한 줄에 나열된다.
하나의 단위가 하나의 행이 된다.
데이터가 크다 = 행이많다 또는 열이 많다.
열이 많은 게 좋을까 행이 많은 게 좋을까?
정답은 열이 많은게 좋다. 다양한 데이터가 더 중요하다.
In [1]:
import pandas as pd
#pandas 패키지를 로드한다. pandas는 데이터를 가공할 때 사용하는 패키지다. 데이터프레임을 만들 땐 pandas의 DataFrame()을 이용함
In [4]:
#DataFrame()에 중괄호{}를 입력한 다음 변수명, 콜론;, 변수에 넣을 값을 차례로 입력한다. 변수명을 따옴표를 이용해 문자 형태로, 변수에 넣을 값은 []안에 입력.
df=pd.DataFrame({'name' : ['김지훈', '이유진', '박동현', '김민지'],
'english' : [90,80,60,70],
'math' : [50,60,100,20]})
df
Out[4]:
name | english | math | |
---|---|---|---|
0 | 김지훈 | 90 | 50 |
1 | 이유진 | 80 | 60 |
2 | 박동현 | 60 | 100 |
3 | 김민지 | 70 | 20 |
In [5]:
df['english'] #데이터프레임에서 특정 값을 추출하기위해 []를 입력한 다음 문자형태로 변수명을 입력하면 됨.
Out[5]:
0 90
1 80
2 60
3 70
Name: english, dtype: int64
In [6]:
sum(df['english']) #변수의 값으로 합계구하기
Out[6]:
300
In [7]:
sum(df['math'])
Out[7]:
230
In [8]:
sum(df['english'])/4 #변수의 값으로 평균 구하기
Out[8]:
75.0
In [9]:
sum(df['math'])/4
Out[9]:
57.5
In [11]:
df=pd.DataFrame({'제품' : ['사과','딸기','수박'],
'가격' : [1800,1500,3000],
'판매량' : [24,38,13]})
df
Out[11]:
제품 | 가격 | 판매량 | |
---|---|---|---|
0 | 사과 | 1800 | 24 |
1 | 딸기 | 1500 | 38 |
2 | 수박 | 3000 | 13 |
In [12]:
sum(df['가격'])/3
Out[12]:
2100.0
In [14]:
sum(df['판매량'])/3
Out[14]:
25.0
In [ ]:
'Python' 카테고리의 다른 글
외부데이터 이용하기 (1) | 2024.01.25 |
---|---|
함수 이해하기 : 패키지, 모듈 (1) | 2024.01.23 |
변수 이해하기 (0) | 2024.01.23 |