본문 바로가기

Python

(57)
<파이썬 판다스> Chapter 11-2 데이터 변환 11-2 데이터 변환 11-1에서는 집계 메서드의 활용법을 알아보았다. 이번에는 데이터 변환 메서드에 대해 알아보겠다. 데이터 변환 메서드는 데이터와 메서드를 일대일로 대응시켜 계산하기 때문에 데이터의 양이 줄어들지 않는다. 말 그대로 데이터를 변환하는 데 사용한다. 표준점수 계산하기 통계 분야에서는 데이터의 평균과 표준편차의 차이를 표준점수라고 부른다. 표준점수를 구하면 변환한 데이터의 평균값이 0이 되고 표준편차는 1이 된다. 그러면 데이터가 표준화되어 서로 다른 데이터를 쉽게 비교할 수 있게 된다. 표준점수는 통계에서 자주 사용하는 지표이다. 표준점수 계산하기¶다음은 표준점수를 계산하는 함수이다.¶ In [1]: def my_zscore(x): return (x - x.mean())/ x.std()..
<파이썬 판다스> Chapter 11-1 데이터 집계 11-1 데이터 집계 데이터 집계하기 - groupby 메서드 수집한 데이터를 바탕으로 평균이나 합 등을 구하여 의미 있는 값을 도출해 내는 것을 '집계'라고 한다. 데이터를 집계하면 전체 데이터를 요약, 정리하여 볼 수 있기 때문에 분석이 훨씬 편해진다. 그러면 groupby 메서드로 평균값을 구하는 과정을 통해 데이터 집계가 무엇인지 알아보겠다. groupby 메서드로 평균값 구하기¶먼저 갭마인더 데이터 집합을 불러온다.¶ In [1]: import pandas as pd df = pd.read_csv(&#39;doit_pandas_data/data/gapminder.tsv&#39;, sep = &#39;\t&#39;) 다음은 year 열을 기준으로 데이터를 그룹화한 다음 lifeExp 열의 평균을 ..
[Python] 카카오 api를 사용한 주소/위경도 추출 [Python] 카카오 api를 사용한 주소/위경도 추출 카카오 API를 이용해 주소에서 위경도를, 위경도를 통해 주소를 추출해보자.¶ 카카오 API를 사용한 주소/위경도 추출 In [1]: import json import requests API Key 세팅¶우선 다음과 같이 카카오에서 발급받은 REST API 키를 다음과 같이 지정해주도록 하자. api_key = "발급받은 키 입력" 지리정보 API를 사용해 주소에서 위경도에서 추출¶이제 Get()함수를 통해 다음과 같이 api를 호출 해주자. 주소는 남산을 택했으며 남산의 주소를 검색 결과 "서울 중구 회형동 1가"로 나오게 되어 이곳의 위경도를 추출하려고 한다. api문서에서는 다음에 위치한다. 개발가이드 - 주소 검색 In [4]: def ad..
<파이썬 판다스> Chapter 10-3 apply 메서드 활용하기 - 고급 10-3 apply 메서드 활용하기 - 고급 이번에는 조금 더 큰 데이터를 사용하여 실습을 진행해 보겠다. 이번에 사용할 데이터는 seaborn 라이브러리의 titanic 데이터 집합이다. 데이터프레임의 누락값을 처리한 다음 apply 메서드 사용하기¶데이터프레임의 누락값 처리하기 - 열 방향¶이번에도 seaborn 라이브러리에 있는 데이터를 사용한다. seaborn 라이브러리에 있는 titanic 데이터 집합을 불러와 변수 titanic에 저장한다. In [8]: import seaborn as sns titanic = sns.load_dataset("titanic") 다음은 titanic 데이터프레임의 데이터 정보를 출력한 것이다.¶ In [9]: print(titanic.info( )) RangeI..
<파이썬 판다스> Chapter 10-2 apply 메서드 활용하기 - 기초 10-2 apply 메서드 활용하기 - 기초 다음 실습을 통해 apply 메서드 활용법을 알아보겠다. apply 메서드로 브로드캐스팅한 결과가 올바른 값인지 확인하기 위해 시리즈, 데이터프레임의 기초 연산 결과와 비교하며 실습을 진행하겠다. 시리즈와 데이터프레임에 apply 메서드 사용하기¶시리즈와 aaply 메서드¶먼저 실습에 사용할 데이터프레임과 제곱 함수를 준비한다. In [27]: # 데이터 프레임 준비 import pandas as pd df = pd.DataFrame({&#39;a&#39;:[10, 20, 30], &#39;b&#39;:[20, 30, 40]}) print(df) a b 0 10 20 1 20 30 2 30 40 In [28]: # 제곱 함수 준비 def my_sq(x): re..
<파이썬 판다스> Chapter 10-1 간단한 함수 만들기 10-1 간단한 함수 만들기 함수는 간단히 설명하고 넘어간다. 함수의 기본 구조는 다음과 같다. In [ ]: def_my_function(): # 여기서부터 코드를 입력한다 그러면 제곱 함수와 n 제곱 함수를 직접 만들어보겠다. 제곱 함수와 n 제곱 함수는 10-2에서 apply 메서드와 함께 사용한다. 여기에서 꼭 함수를 만들어보고 다음으로 넘어가자. 제곱 함수와 n 제곱 함수 만들기¶제곱 함수는 아래와 같다.¶ In [5]: def my_sq(x): return x ** 2 n 제곱 함수 my_exp는 다음과 같다.¶ In [6]: def my_exp(x, n): return x ** n 과정 1~2에서 만든 함수를 사용해보자.¶ In [7]: print(my_sq(4)) print(my_exp(2..
<파이썬 판다스> Chapter 09-4 정규식으로 문자열 처리에 날개 달기 09-4 정규식으로 문자열 처리에 날개 달기 정규식이란? 수만 개의 문자열 중에서 내가 원하는 패턴의 문자열만 추출하려면 어떻게 해야 할까? 예를 들어 I like apple, I like to make application이라는 문자열에서 app을 포함하는 문자열만 추출하려면 어떻게 해야 할까? find 메서드를 사용해도 되지만 이런 경우에는 정규식을 사용하면 더 편리하다. 그러면 정규식이 무엇인지 실습을 통해 자세히 알아보자. 정규식 표현 - 문법, 특수 문자¶정규식 표현에 사용되는 문법과 특수 문자를 다음과 같이 표로 정리했다. 정규식을 사용하려면 다음 표를 참고하여 찾고자 하는 문자열의 정규식 패턴을 만들어야 한다. https://regex101.com 사이트에서 정규식 패턴을 실습해 보는 것을 ..
<파이썬 판다스> Chapter 09-3 문자열 포매팅 09-3 문자열 포매팅 문자열 포매팅은 문자열을 편리하게 출력할 수 있게 해주는 기능이다. 예를 들어 I can swim, I can fly, I can run과 같은 문자열은 I can이라는 문자열에 swim, run, fly와 같은 단어만 바꿔 넣어 출력하는 것이 더 편리하다. 즉, 문자열 포매팅이란 출력할 문자열의 형식을 지정하거나 변수를 조합하여 출력하는 방법을 말한다. 문자열 포매팅하기¶다음과 같은 단어를 삽입할 위치릴 {}로 지정하고 format 메서드에 원하는 단어를 전달하면 {}의 위치에 전달한 단어를 삽입해 출력한다. 이떄 {}를 플레이스 홀더라고 부른다.¶ In [1]: var = &#39;flesh wound&#39; s = "It&#39;s just a {}" In [2]: prin..