Python/Pandas

[Python] Pandas Series 데이터 생성 pd.Series, pd.DataFrame

건휘맨 2024. 4. 5. 13:12

판다스(Pandas)는 데이터 셋을 이용한 다양한 통계 처리 기능을 제공하는 라이브러리다.

 

판다스의 1차원 배열은 시리즈(Series), 2차원 배열은 데이터프레임(DataFrame)이라고 부른다.

 

pd.Series(data= a, index=b) :

a 에 데이터(values) 값, b에 인덱스(index)값을 입력하면 1차원 데이터(시리즈)를 생성

인덱스값을 입력하지 않으면 컴퓨터가 매기는 인덱스값으로 나온다.

 

import pandas as pd

>>> index = ['eggs', 'apples', 'milk', 'bread']
>>> data = [30, 6, 'Yes', 'No']

>>> groceries = pd.Series(data= data, index= index)
>>> groceries

#index   values
eggs       30
apples      6
milk      Yes
bread      No
dtype: object

 

pd.DataFrame(data= a) : a에 값을 입력하면 2차원 데이터(데이터 프레임)를 생성한다

왼쪽의 행부분의 진한 글씨 :

인덱스(index)

위쪽의 열부분의 진한 글씨 : 컬럼(columns)

안쪽에 있는 데이터 : 밸류(values)

 

items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}
         
         df = pd.DataFrame(data= items)

	Bob	Alice
bike	245.0	500.0
book	NaN	40.0
glasses	NaN	110.0
pants	25.0	45.0
watch	55.0	NaN