03-2
시리즈 다루기 - 기초¶
판다스의 데이터를 구성하는 가장 기본 단위는 시리즈이다. 이번에는 데이터프레임에서 시리즈를 선택하는 방법에 대해 알아보겠다.
데이터프레임에서 시리즈 선택하기¶
- 먼저 변수 scientists에 데이터프레임을 준비한다.
In [15]:
scientists = pd.DataFrame(
data={'Occupation': ['Chemist' , 'Statistician'],
'Born' : ['1920-07-25', '1876-06-13'],
'Died' : ['1958-04-16', '1937-10-16'],
'Age' :[37, 61]},
index=['Rosaline Flanklyn', 'William Gosset'],
columns=['Occupation', 'Born', 'Died', 'Age'])
- 데이터프레임에서 시리즈를 확인하려면 loc 속성에 인덱스(과학자 이름)를 전달하면 된다. 정말 시리즈를 선택한 것인지 확인하기 위해 type으로 한번 더 검사한다.
In [17]:
first_row = scientists.loc['William Gosset']
print(type(first_row))
<class 'pandas.core.series.Series'>
- first_row를 출력해보겠다. 여기서 주목해야 할 점은 데이터프레임 리스트를 만들 때 Age 열에 정수형 리스트를 전달해도 시리즈(first_row)를 출력해 보면 시리즈의 자료형을 오브젝트로 인식한다는 점이다.
In [19]:
print(first_row)
Occupation Statistician Born 1876-06-13 Died 1937-10-16 Age 61 Name: William Gosset, dtype: object
시리즈 속성과 메서드 사용하기 - index, values, keys
01장에서 실습한 loc, iloc와 같은 속성 외에도 시리즈에는 다양한 속성이 미리 정의되어 있다. 이번에는 index, values 속성과 keys 메서드에 대해 알아보겠다.
In [20]:
print(first_row.index)
Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')
2. values 속성 사용하기¶
values 속성에는 시리즈의 데이터가 저장되어 있다.
In [21]:
print(first_row.values)
['Statistician' '1876-06-13' '1937-10-16' 61]
3. keys 메서드 사용하기¶
values 속성에는 시리즈의 데이터가 저장되어 있다.
In [23]:
print(first_row.keys())
Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')
4. index 속성 응용하기¶
만약 index 속성의 첫 번째 값을 추출하려면 다음과 같이 코드를 작성하면 된다.
In [24]:
print(first_row.index[0])
Occupation
5. keys 메서드 응용하기¶
keys 메서드의 결과값을 이용하여 인덱스의 첫 번째 값을 추출하는 방법은 다음과 같다.
In [26]:
print(first_row.keys()[0])
Occupation
시리즈의 기초 통계 메서드 사용하기
시리즈에는 keys 메서드 외에도 다양한 메서드가 있다. 이번에는 시리즈에 미리 정의 되어 있는 mean, min, max, std 메서드의 사용 방법을 알아보겠다.
시리즈의 meam, min, max, std 메서드 사용하기¶
- 이번에는 scientists의 age 열을 추출해 보겠다.
In [28]:
ages = scientists['Age']
print(ages)
Rosaline Flanklyn 37 William Gosset 61 Name: Age, dtype: int64
- 만약 시리즈를 구성하는 데이터가 정수라면 mean, min, max, std와 같은 통계 메서드를 사용할 수 있다.
In [32]:
print(ages.mean())
49.0
In [33]:
print(ages.min())
37
In [34]:
print(ages.max())
61
In [35]:
print(ages.std())
16.97056274847714
다음은 시리즈에서 자주 사용하는 메서드를 정리한 표이다. 앞으로 종종 사용할 메서드이므로 읽어 보고 넘어가자.
시리즈 메서드 | 설명 |
---|---|
append | 2개 이상의 시리즈 연결 |
describe | 요약 통계량 계산 |
drop_duplicates | 중복값이 없는 시리즈 반환 |
get_values | 시리즈 값 구하기(values 속성과 동일) |
isin | 시리즈에 포함된 값이 있는지 확인 |
min | 최솟값 반환 |
max | 최댓값 반환 |
mean | 산술 평균 반환 |
median | 중간값 반환 |
replace | 특정 값을 가진 시리즈 값을 교체 |
sample | 시리즈에서 임의의 값을 반환 |
sort_values | 값을 정렬 |
to_frame | 시리즈를 데이터프레임으로 변환 |
출처 : Do it! 데이터 분석을 위한 판다스
'Python > Pandas' 카테고리의 다른 글
<파이썬 판다스> Chapter 03-4 데이터프레임 다루기 (0) | 2023.04.28 |
---|---|
<파이썬 판다스> Chapter 03-3 시리즈 다루기 - 응용 (0) | 2023.04.28 |
<파이썬 판다스> Chapter 03-1 나만의 데이터 만들기 (0) | 2023.04.28 |
<파이썬 판다스> Chapter 02-4 그래프 그리기 (0) | 2023.04.26 |
<파이썬 판다스> Chapter 02-3 기초적인 통계 계산하기 (0) | 2023.04.26 |