본문 바로가기

Python/Pandas

(38)
<파이썬 판다스> Chapter 07-3 여러 열을 하나로 정리하기 07-3 여러 열을 하나로 정리하기¶ 보통 데이터프레임의 열은 파이썬의 변수와 같은 개념으로 사용한다. 하지만 비슷한 성질의 데이터를 관리하기 위해 열이 여러 개로 분리되어 있는 경우도 있다. 다음 실습을 통해 여러 개로 분리된 열을 정리하는 방법에 대해 알아보겠다. 기상 데이터의 여러 열을 하나로 정리하기 - melt, pivot_table 메서드¶ 다음은 기상 데이터를 불러와 출력한 것이다. 날짜 열(d1, ..., d31)에는 각 월별 최고, 최저 온도 데이터가 저장되어 있다. 지금은 날짜 열이 옆으로 길게 늘어져 있어 보기 불편하다. 먼저 날짜 열을 행 데이터로 피벗하겠다. In [2]: import pandas as pd weather = pd.read_csv(&#39;doit_pandas_da..
<파이썬 판다스> Chapter 07-2 열 이름 관리하기 07-2 열 이름 관리하기¶ 하나의 열이 여러 의미를 가지고 있는 경우 어떤 열은 여러 가지 의미를 가지고 있을 수 있다. 예를 들어 ebola 데이터 집합의 열중 하나인 Deaths_Guinea는 '사망자 수'와 '나라 이름'을 합쳐 만든 이름이다. 그러면 ebola 데이터 집합을 살펴보면서 하나의 열이 여러 가지 의미를 가지고 있다는 것이 무엇인지 구체적으로 알아보자. ebola 데이터 집합 살펴보기¶ 다음은 ebola 데이터를 불러온 다음 0, 1, 2, 3, 10, 11열의 5개 데이터만 확인한 것이다. In [2]: import pandas as pd ebola = pd.read_csv(&#39;doit_pandas_data/data/country_timeseries.csv&#39;) print..
<파이썬 판다스> Chapter 07-1 열과 피벗 07-1 열과 피벗¶ 넓은 데이터 데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 한다. 예를 들어 ebola 데이터프레임 열은 사망한 날짜(Date), 발병 국가(Case_Guinea) 등의 데이터를 저장하고 있다. 하지만 이번에 다루는 데이터프레임은 열은 열 자체가 어떤 값(
<파이썬 판다스> Chapter 06-1 누락값 처리하기 06-1 누락값이란?¶ 누락값과 누락값 확인하기 누락값(NaN)은 NaN, NaN, nan과 같은 방법으로 표기할 수 있다. 여기서는 누락값을 NaN이라고 표기하여 사용한다. 그러면 바로 실습을 진행해 보면서 누락값이 무엇인지 알아보겠다. 누락값을 파이썬에 사용하려면 넘파이(numpy) 라이브러리가 필요하다. 넘파이 라이브러리는 수학이나 과학 연산을 위해 만든 파이썬 라이브러리이다. 누락값 확인하기¶ 먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러온다. In [1]: from numpy import NaN, NAN, nan 누락값 0, ''와 같은 값과는 다른 개념이라는 것에 주의해야 한다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미한다. 그래서 '같다'라는 개념도 없다. 다음은 누락값..
<파이썬 판다스> Chapter 05-3 데이터 연결 마무리 05-3 데이터 연결 마무리¶ 판다스는 데이터 연결 전용 메서드인 merge를 제공한다. merge 메서드의 사용 방법을 ㅅㄹ습하면서 데이터 연결을 마무리하겠다. merge 메서드 사용하기¶ 다음은 특정 위치의 날씨 정보에 필요한 데이터 집합을 모두 불러온 것이다. person은 관측한 사람의 이름, site는 관측 위치, visited는 관측 날짜, survey는 날씨 정보이다. In [2]: import pandas as pd person = pd.read_csv(&#39;doit_pandas_data/data/survey_person.csv&#39;) site = pd.read_csv(&#39;doit_pandas_data/data/survey_site.csv&#39;) survey = pd.rea..
<파이썬 판다스> Chapter 05-2 데이터 연결 기초 05-2 데이터 연결 기초¶ 데이터 연결하기¶1. concat 메서드로 데이터 연결하기¶데이터를 연결하려면 concat 메서드를 사용하면 된다. 다음 예제를 통해 concat 메서드의 사용법을 익혀보겠다. 준비된 CSV 파일을 읽어 들어 변수 df1, 2, 3에 저장한다. concat은 연결(concatenation)이라는 단어에서 따온 것이다. In [1]: import pandas as pd df1 = pd.read_csv(&#39;doit_pandas_data/data/concat_1.csv&#39;) df2 = pd.read_csv(&#39;doit_pandas_data/data/concat_2.csv&#39;) df3 = pd.read_csv(&#39;doit_pandas_data/data/co..
<파이썬 판다스> Chapter 05-1 분석하기 좋은 데이터 05-1 분석하기 좋은 데이터¶ 분석하기 좋은 데이터란? 분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말한다. 데이터 분석 단계에서 데이터 정리는 아주 중요하다. 실제로 데이터 분석 작업의 70% 이상 차지하고 있는 작업이 데이터 정리 작업이다. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 특별히 깔끔한 데이터(Tidy Data)라고 부른다. 깔끔한 데이터의 조건¶ 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 한다. 측정한 값은 행(row)를 구성해야 한다. 변수는 열(column)로 구성해야 한다. 아직은 깔끔한 데이터가 왜 중요한지 알 수 없겠지만 실습을 하나씩 진행하다 보면 깔끔한 데이터의 중요성에 대해 ..
<파이썬 판다스> Chapter 04-5 seaborn 라이브러리로 그래프 스타일 설정하기 04-5 seaborn 라이브러리로 그래프 스타일 설정하기¶ seaborn 라이브러리로 만든 그래프는 모두 기본 스타일이었다. seaborn 라이브러리로 만든 그래프의 스타일은 set_style 메서드를 사용하여 바꿀 수 있다. set_style은 스타일을 적용할 부분에서 한 번만 실행하면 된다. 그러면 메서드를 실행한 이후의 그래프가 모두 지정한 스타일로 바뀐다. 다음 예제를 통해 스타일 설정 방법을 간단히 알아보자. seaborn 라이브러리 스타일은 darkgrid, whitegird, dark, white, ticks로 5종류이다. 그래프에 스타일 적용하기¶ seaborn 라이브러리의 violinplot 기능을 사용하여 tips 데이터셋에서 time과 total_bill 변수 간의 분포를 시각적으로..