Python (57) 썸네일형 리스트형 <파이썬 판다스> Chapter 04-5 seaborn 라이브러리로 그래프 스타일 설정하기 04-5 seaborn 라이브러리로 그래프 스타일 설정하기¶ seaborn 라이브러리로 만든 그래프는 모두 기본 스타일이었다. seaborn 라이브러리로 만든 그래프의 스타일은 set_style 메서드를 사용하여 바꿀 수 있다. set_style은 스타일을 적용할 부분에서 한 번만 실행하면 된다. 그러면 메서드를 실행한 이후의 그래프가 모두 지정한 스타일로 바뀐다. 다음 예제를 통해 스타일 설정 방법을 간단히 알아보자. seaborn 라이브러리 스타일은 darkgrid, whitegird, dark, white, ticks로 5종류이다. 그래프에 스타일 적용하기¶ seaborn 라이브러리의 violinplot 기능을 사용하여 tips 데이터셋에서 time과 total_bill 변수 간의 분포를 시각적으로.. <파이썬 판다스> Chapter 04-4 데이터프레임과 시리즈로 그래프 그리기 04-4 데이터프레임과 시리즈로 그래프 그리기¶ 데이터프레임과 시리즈로도 그래프를 그릴 수 있다. 간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용하여 바로 그래프를 그릴 수 있다. 데이터프레임과 시리즈로 그래프 그리기¶ 우선 히스토그램을 그려보자. 시리즈에 있는 plot 속성에 정의돈 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있다. In [16]: tips = sns.load_dataset("tips") # tips 데이터프레임 불러오기 ax = plt.subplots() ax = tips['total_bill'].plot.hist() 투명도를 조절하려면 hist 메서드의 alpha, bins, ax 인자를 사용하면 된다. 다음.. <파이썬 판다스> Chapter 04-3 seaborn 라이브러리 자유자재로 사용하기 04-3 seaborn 라이브러리 자유자재로 사용하기¶ 04-4에서는 seaborn 라이브러리의 tips 데이터 집합만 사용했지만 이번에는 seaborn 라이브러리 자체를 활용하여 그래프를 그려보겠다. seaborn 라이브러리를 활용하면 matplotlib보다 좀 더 화려한 그래프를 그릴 수 있다. seaborn 라이브러리는 matplotlib 라이브러리를 기반으로 만든 라이브러리이다. 단변량 그래프 그리기 - 히스토그램¶ 지금부터는 seaborn 라이브러리를 sns라는 이름으로 줄여 사용하겠다. 다시 tips 데이터 집합을 불러온다. In [49]: # matplotlib 불러오기 import matplotlib.pyplot as plt # seaborn 불러오기 import seaborn as sns.. <파이썬 판다스> Chapter 04-2 matplotlib 라이브러리 자유자재로 사용하기 04-2 matplotlib 라이브러리 자유자재로 사용하기¶ 04-1에서 앤스콤 4분할 그래프를 그릴 때 제목을 추가하기 위해 set_title 메서드를 사용했던 것을 기억하는가? 이 밖에도 matplotlib 라이브러리에는 그래프를 그리기 위한 다양한 메서드가 준비되어 있다. 지금부터 matplotlib 라이브러리에는 어떤 메서드가 있는지 실습을 통해 하나씩 알아보겠다. 더불어 고급 그래프 라이브러리인 seaborn 라이브러리도 함꼐 알아보았다. 기초 그래프 그리기 seaborn 라이브러리에는 tips라는 데이터 집합이 있다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것ㅇ다. 이번 실습에서는 tips 데이터 집합을 사용해 다양한 그래프를 그려보겠다. 그래프를 이해하는 데 .. <파이썬 머신러닝> 로지스틱 회귀(Logistic regression) 로지스틱 회귀란 무엇인가? 아래 이런 데이터가 있다고 가정해보면, 파란 동그라미로 표시된 데이터와 빨간 동그라미로 표시된 데이터를 분류하고 싶을 때, 아래와 같이 이를 분류할 수 있는 이상적이니 그래프를 찾는 것이다. 로지스틱 회귀는 이름은 회귀이지만 분류 모델이다. 이 알고리즘은 선형 회귀와 동일하게 선형 방정식을 학습한다. 그러나 이 최종 값은 0과 1사이의 확률로 변경되어야 하는데, 이를 해결하는 방법이 로지스틱 함수이다. 시그모이드 함수 시그모이드 함수라고도 불리는데, 그래프의 모양은 다음과 같다. 이 값은 선형 방정식을 통해 값이 양의 무한대에 가까워지면 1에 가깝고 음의 무한대로 가까워지면 0에 가깝게 된다. 로지스틱 회귀를 이용한 2진 분류 물고기 데이터를 불러왔다. Weight, lengt.. <파이썬 판다스> Chapter 04-1 데이터 시각화가 필요한 이유 04-1 데이터 시각화가 필요한 이유¶ 엔스콤 4분할 그래프 살펴보기 데이터 시각화를 보여주는 전형적인 사례로 엔스콤 4분할 그래프(Anscombe's quartet)가 있다. 이 그래프는 영국의 프랭크 앤스콤(Frank Anscombe)이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프이다. 그러면 엑스콤이 지적한 '함정'이란 무엇일까? 앤스콤이 지적한 함정과 데이터 시각화의 필요성¶앤스콤 4분할 그래프는 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다. 그런데 이 4개의 그룹은 각각 평균, 분산과 같은 수치값이나 상관관계, 회귀선이 같다는 특징이 있다. 그래서 이런 결과만 보고 '데이터 그룹 1, 2, .. <파이썬 판다스> Chapter 03-6 데이터 저장하고 불러오기 03-6 데이터 저장하고 불러오기¶ 지금까지 데이터를 추출하고 처리하는 방법에 대해 알아보았다. 일종의 '데이터 가공 처리'를 거친 것이다. 이렇게 잘 가공한 데이터는 안전하게 보관해야 다음에 또 사용할 수 있다. 판다스는 데이터를 저장하는 다양한 방법을 제공한다. 여기서는 가공한 데이터를 피클, CSV, TSV 파일로 저장하고 다시 불러오는 방법에 대해 살펴본다. 데이터를 피클, CSV, TSV 파일로 저장하고 불러오기¶1. 피클로 저장하기¶피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법이다. 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어 매우 편리하다. 시리즈를 피클로 저장혀려면 to_pickle 메서드를 사용하면 되는데, 이때 저장 경로를 문자열로 전달.. <파이썬 판다스> Chapter 03-5 시리즈와 데이터프레임의 데이터 처리하기 03-5 시리즈와 데이터프레임의 데이터 처리하기¶ 지금까지는 시리즈와 데이터프레임에서 데이터를 추출하는 여러 방법에 대해 알아보았다. 이번에는 시리즈와 데이터프레임에 있는 데이터를 처리하는 방법에 대해 알아보겠다. 시리즈와 데이터프레임의 데이터 처리하기¶1. 열의 자료형 바꾸기와 새로운 열 추가하기¶scientists 데이터프레임의 Born과 Died 열의 자료형을 확인해 보겠다. 각각의 자료형은 문자열(오브젝트)이다. In [3]: # 데이터 불러오기 import pandas as pd scientists = pd.read_csv('doit_pandas_data/data/scientists.csv') In [4]: print(scientists['Born'].dtype) o.. 이전 1 2 3 4 5 6 7 8 다음