Python/Pandas (38) 썸네일형 리스트형 <파이썬 판다스> Chapter 04-4 데이터프레임과 시리즈로 그래프 그리기 04-4 데이터프레임과 시리즈로 그래프 그리기¶ 데이터프레임과 시리즈로도 그래프를 그릴 수 있다. 간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용하여 바로 그래프를 그릴 수 있다. 데이터프레임과 시리즈로 그래프 그리기¶ 우선 히스토그램을 그려보자. 시리즈에 있는 plot 속성에 정의돈 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있다. In [16]: tips = sns.load_dataset("tips") # tips 데이터프레임 불러오기 ax = plt.subplots() ax = tips['total_bill'].plot.hist() 투명도를 조절하려면 hist 메서드의 alpha, bins, ax 인자를 사용하면 된다. 다음.. <파이썬 판다스> Chapter 04-3 seaborn 라이브러리 자유자재로 사용하기 04-3 seaborn 라이브러리 자유자재로 사용하기¶ 04-4에서는 seaborn 라이브러리의 tips 데이터 집합만 사용했지만 이번에는 seaborn 라이브러리 자체를 활용하여 그래프를 그려보겠다. seaborn 라이브러리를 활용하면 matplotlib보다 좀 더 화려한 그래프를 그릴 수 있다. seaborn 라이브러리는 matplotlib 라이브러리를 기반으로 만든 라이브러리이다. 단변량 그래프 그리기 - 히스토그램¶ 지금부터는 seaborn 라이브러리를 sns라는 이름으로 줄여 사용하겠다. 다시 tips 데이터 집합을 불러온다. In [49]: # matplotlib 불러오기 import matplotlib.pyplot as plt # seaborn 불러오기 import seaborn as sns.. <파이썬 판다스> Chapter 04-2 matplotlib 라이브러리 자유자재로 사용하기 04-2 matplotlib 라이브러리 자유자재로 사용하기¶ 04-1에서 앤스콤 4분할 그래프를 그릴 때 제목을 추가하기 위해 set_title 메서드를 사용했던 것을 기억하는가? 이 밖에도 matplotlib 라이브러리에는 그래프를 그리기 위한 다양한 메서드가 준비되어 있다. 지금부터 matplotlib 라이브러리에는 어떤 메서드가 있는지 실습을 통해 하나씩 알아보겠다. 더불어 고급 그래프 라이브러리인 seaborn 라이브러리도 함꼐 알아보았다. 기초 그래프 그리기 seaborn 라이브러리에는 tips라는 데이터 집합이 있다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것ㅇ다. 이번 실습에서는 tips 데이터 집합을 사용해 다양한 그래프를 그려보겠다. 그래프를 이해하는 데 .. <파이썬 판다스> Chapter 04-1 데이터 시각화가 필요한 이유 04-1 데이터 시각화가 필요한 이유¶ 엔스콤 4분할 그래프 살펴보기 데이터 시각화를 보여주는 전형적인 사례로 엔스콤 4분할 그래프(Anscombe's quartet)가 있다. 이 그래프는 영국의 프랭크 앤스콤(Frank Anscombe)이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프이다. 그러면 엑스콤이 지적한 '함정'이란 무엇일까? 앤스콤이 지적한 함정과 데이터 시각화의 필요성¶앤스콤 4분할 그래프는 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다. 그런데 이 4개의 그룹은 각각 평균, 분산과 같은 수치값이나 상관관계, 회귀선이 같다는 특징이 있다. 그래서 이런 결과만 보고 '데이터 그룹 1, 2, .. <파이썬 판다스> Chapter 03-6 데이터 저장하고 불러오기 03-6 데이터 저장하고 불러오기¶ 지금까지 데이터를 추출하고 처리하는 방법에 대해 알아보았다. 일종의 '데이터 가공 처리'를 거친 것이다. 이렇게 잘 가공한 데이터는 안전하게 보관해야 다음에 또 사용할 수 있다. 판다스는 데이터를 저장하는 다양한 방법을 제공한다. 여기서는 가공한 데이터를 피클, CSV, TSV 파일로 저장하고 다시 불러오는 방법에 대해 살펴본다. 데이터를 피클, CSV, TSV 파일로 저장하고 불러오기¶1. 피클로 저장하기¶피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법이다. 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어 매우 편리하다. 시리즈를 피클로 저장혀려면 to_pickle 메서드를 사용하면 되는데, 이때 저장 경로를 문자열로 전달.. <파이썬 판다스> Chapter 03-5 시리즈와 데이터프레임의 데이터 처리하기 03-5 시리즈와 데이터프레임의 데이터 처리하기¶ 지금까지는 시리즈와 데이터프레임에서 데이터를 추출하는 여러 방법에 대해 알아보았다. 이번에는 시리즈와 데이터프레임에 있는 데이터를 처리하는 방법에 대해 알아보겠다. 시리즈와 데이터프레임의 데이터 처리하기¶1. 열의 자료형 바꾸기와 새로운 열 추가하기¶scientists 데이터프레임의 Born과 Died 열의 자료형을 확인해 보겠다. 각각의 자료형은 문자열(오브젝트)이다. In [3]: # 데이터 불러오기 import pandas as pd scientists = pd.read_csv('doit_pandas_data/data/scientists.csv') In [4]: print(scientists['Born'].dtype) o.. <파이썬 판다스> Chapter 03-4 데이터프레임 다루기 03-4 데이터프레임 다루기¶ 데이터 프레임도 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있다. 그러면 불린 추출부터 실습해 보겠다. 불린 추출과 브로드캐스팅¶ In [67]: # 데이터 불러오기 import pandas as pd scientists = pd.read_csv('doit_pandas_data/data/scientists.csv') 1. 불린 추출하기¶데이터프레임도 불린 추출을 할 수 있다. 다음은 데이터프레임의 Age 열에서 Age 열의 평균보다 높은 행만 출력한다. In [68]: print(scientists[scientists['Age'] > scientists['Age'].mean()]) Name Born Died Age Occ.. <파이썬 판다스> Chapter 03-3 시리즈 다루기 - 응용 03-3 시리즈 다루기 - 응용¶ 시리즈와 불린 추출 02장에서는 원하는 데이터를 추출할 때 특정 인덱스를 지정하여 추출했다. 하지만 보통은 추출한 데이터의 정확한 인덱스를 모르는 경우가 더 많다. 이런 경우에 사용하는 방법이 불린 추출이다. 불린 추출은 특정 조건에 만족하는 값만 추출할 수 있다. 시리즈와 불린 추출 사용하기¶ 이번에는 'scientists.csv'라는 이름의 데이터를 불러온다. In [44]: import pandas as pd scientists = pd.read_csv('doit_pandas_data/data/scientists.csv') 통계 수치의 결괏값을 이용하여 불린 추출을 진행해 보겠다. 다음은 Age 열을 추출하여 max, mean 메서드를 사용한 것이다... 이전 1 2 3 4 5 다음