본문 바로가기

Python

(57)
<파이썬 판다스> Chapter 03-4 데이터프레임 다루기 03-4 데이터프레임 다루기¶ 데이터 프레임도 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있다. 그러면 불린 추출부터 실습해 보겠다. 불린 추출과 브로드캐스팅¶ In [67]: # 데이터 불러오기 import pandas as pd scientists = pd.read_csv(&#39;doit_pandas_data/data/scientists.csv&#39;) 1. 불린 추출하기¶데이터프레임도 불린 추출을 할 수 있다. 다음은 데이터프레임의 Age 열에서 Age 열의 평균보다 높은 행만 출력한다. In [68]: print(scientists[scientists[&#39;Age&#39;] > scientists[&#39;Age&#39;].mean()]) Name Born Died Age Occ..
<파이썬 판다스> Chapter 03-3 시리즈 다루기 - 응용 03-3 시리즈 다루기 - 응용¶ 시리즈와 불린 추출 02장에서는 원하는 데이터를 추출할 때 특정 인덱스를 지정하여 추출했다. 하지만 보통은 추출한 데이터의 정확한 인덱스를 모르는 경우가 더 많다. 이런 경우에 사용하는 방법이 불린 추출이다. 불린 추출은 특정 조건에 만족하는 값만 추출할 수 있다. 시리즈와 불린 추출 사용하기¶ 이번에는 'scientists.csv'라는 이름의 데이터를 불러온다. In [44]: import pandas as pd scientists = pd.read_csv(&#39;doit_pandas_data/data/scientists.csv&#39;) 통계 수치의 결괏값을 이용하여 불린 추출을 진행해 보겠다. 다음은 Age 열을 추출하여 max, mean 메서드를 사용한 것이다...
<파이썬 판다스> Chapter 03-2 시리즈 다루기 - 기초 03-2 시리즈 다루기 - 기초¶ 판다스의 데이터를 구성하는 가장 기본 단위는 시리즈이다. 이번에는 데이터프레임에서 시리즈를 선택하는 방법에 대해 알아보겠다. 데이터프레임에서 시리즈 선택하기¶ 먼저 변수 scientists에 데이터프레임을 준비한다. In [15]: scientists = pd.DataFrame( data={&#39;Occupation&#39;: [&#39;Chemist&#39; , &#39;Statistician&#39;], &#39;Born&#39; : [&#39;1920-07-25&#39;, &#39;1876-06-13&#39;], &#39;Died&#39; : [&#39;1958-04-16&#39;, &#39;1937-10-16&#39;], &#39;Age&#39; :[37, 61..
<파이썬 판다스> Chapter 03-1 나만의 데이터 만들기 03-1 나만의 데이터 만들기¶ 02장에서는 파일에서 데이터 집합을 불러온 다음 실습을 진행했다. 이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어서 진행하겠다. 시리즈와 데이터프레임 직접 만들기¶ 1. 시리즈 만들기¶판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성한다. In [4]: import pandas as pd s = pd.Series([&#39;banana&#39;, 42]) print(s) 0 banana 1 42 dtype: object 02장에서는 인덱스는 보통 0부터 시작한다고 했었다. 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수도 있다. 문자열을 인덱스로 지정하려면 Series 메서드의 index 인자를 통해 인덱스를 사용하고자 하는 문자열을 리스트에..
<파이썬 머신러닝> 선형 회귀(Linear Regression) 선형 회귀란 무엇인가? 선형 회귀는 간단히 말해서, 한 가지 변수가 다른 변수에 어떤 영향을 주는지 알아보는 방법이다. 예를 들어, 카드 한도를 정하는 기준을 만들기 위해서는, 소득 수준이 어떤 영향을 미치는지 알아볼 수 있다. 아래 그래프는 카드사용량과 소득 수준 간의 상관관계를 보여주는 산점도이다. 고객 B와 고객A의 소득 수준에 따른 카드 사용량 아래 그림을 보면 대부분의 고객들이 소득 수준에 따라 소득이 높을 수록 카드 사용량이 많아지고, 소득 수준이 낮을 수록 카드 사용량이 적어지는 선형적인 모습을 보인다. 고객 B와 고객 A의 소득 수준과 카드 사용량에 따른 카드 한도 소득 수준과 카드 사용량은 종속 변수와 독립 변수로 사용될 수 있다. 이러한 변수들을 활용해 선형 회귀 기법을 사용하여 카드 ..
<파이썬 판다스> Chapter 02-4 그래프 그리기 02-4 그래프 그리기¶ 그래프와 같은 데이터의 시각화는 데이터 분석 과정에서 가장 중요한 요소이다. 데이터를 시각화하면 데이터를 이해하거나 추이를 파악하는 등의 작업을 할 때 많은 도움이 된다. 여기에서는 간단한 그래프를 그려보고 데이터 시각화가 무엇인지 알아보겠다. 자세한 내용은 04장에서 더 자세히 설명하겠다. 그래프 그리기¶ 먼저 그래프와 연관된 라이브러리를 불러온다. In [4]: %matplotlib inline import matplotlib.pyplot as plt # %matplotlib inline은 주피터 노트북에서 그래프를 그리기 위해 사용하는 매직 함수이다. df를 불러온 뒤 year 열을 기준으로 그룹화한 데이터프레임에서 lifeExp 열만 추출하여 평균값을 구한다. In [7]..
<파이썬 판다스> Chapter 02-3 기초적인 통계 계산하기 02-3 기초적인 통계 계산하기¶ 지금까지는 데이터를 추출하는 방법에 대해 알아보았다. 이번에는 추출한 데이터를 가지고 몇 가지 기초적인 통계 계산을 해보겠다. 다음은 갭마인더 데이터 집합에서 0~9번째 데이터를 추출하여 출력한 것이다. In [2]: import pandas as pd df = pd.read_csv(&#39;doit_pandas_data/data/gapminder.tsv&#39;, sep=&#39;\t&#39;) print(df.head(n=10)) country continent year lifeExp pop gdpPercap 0 Afghanistan Asia 1952 28.801 8425333 779.445314 1 Afghanistan Asia 1957 30.332 9240934 ..
<파이썬 판다스> Chapter 02-2 데이터 추출하기 02-2 데이터 추출하기¶ 지금까지 데이터프레임의 크기와 자료형을 살펴보는 방법에 대해 알아보았다. 앞에서 head 메서드를 이용해 데이터프레임에서 가장 앞에 있는 5개의 데이터를 추출하여 출력했던 것을 기억하는가? 이번에는 데이터프레임에서 데이터를 열 단위로 추출하는 방법과 행 단위로 추출하는 방법을 알아보겠다. 먼저 열 단위의 데이터를 추출하는 방법을 알아보겠다. 열 단위 데이터 추출하기 데이터프레임에서 데이터를 열 단위로 추출하려면 대괄호와 열 이름을 사용해야 한다. 이때 열 이름은 꼭 작은 따옴표를 사용해서 지정해야 하고 추출한 열은 변수에 저장해서 사용할 수도 있다. 이때 1개의 열만 추출하면 시리즈를 얻을 수 있고 2개 이상의 열을 추출하면 데이터프레임을 얻을 수 있다. 열 단위로 데이터 추출..