본문 바로가기

Python/Pandas

(38)
<파이썬 판다스> Chapter 10-1 간단한 함수 만들기 10-1 간단한 함수 만들기 함수는 간단히 설명하고 넘어간다. 함수의 기본 구조는 다음과 같다. In [ ]: def_my_function(): # 여기서부터 코드를 입력한다 그러면 제곱 함수와 n 제곱 함수를 직접 만들어보겠다. 제곱 함수와 n 제곱 함수는 10-2에서 apply 메서드와 함께 사용한다. 여기에서 꼭 함수를 만들어보고 다음으로 넘어가자. 제곱 함수와 n 제곱 함수 만들기¶제곱 함수는 아래와 같다.¶ In [5]: def my_sq(x): return x ** 2 n 제곱 함수 my_exp는 다음과 같다.¶ In [6]: def my_exp(x, n): return x ** n 과정 1~2에서 만든 함수를 사용해보자.¶ In [7]: print(my_sq(4)) print(my_exp(2..
<파이썬 판다스> Chapter 09-4 정규식으로 문자열 처리에 날개 달기 09-4 정규식으로 문자열 처리에 날개 달기 정규식이란? 수만 개의 문자열 중에서 내가 원하는 패턴의 문자열만 추출하려면 어떻게 해야 할까? 예를 들어 I like apple, I like to make application이라는 문자열에서 app을 포함하는 문자열만 추출하려면 어떻게 해야 할까? find 메서드를 사용해도 되지만 이런 경우에는 정규식을 사용하면 더 편리하다. 그러면 정규식이 무엇인지 실습을 통해 자세히 알아보자. 정규식 표현 - 문법, 특수 문자¶정규식 표현에 사용되는 문법과 특수 문자를 다음과 같이 표로 정리했다. 정규식을 사용하려면 다음 표를 참고하여 찾고자 하는 문자열의 정규식 패턴을 만들어야 한다. https://regex101.com 사이트에서 정규식 패턴을 실습해 보는 것을 ..
<파이썬 판다스> Chapter 09-3 문자열 포매팅 09-3 문자열 포매팅 문자열 포매팅은 문자열을 편리하게 출력할 수 있게 해주는 기능이다. 예를 들어 I can swim, I can fly, I can run과 같은 문자열은 I can이라는 문자열에 swim, run, fly와 같은 단어만 바꿔 넣어 출력하는 것이 더 편리하다. 즉, 문자열 포매팅이란 출력할 문자열의 형식을 지정하거나 변수를 조합하여 출력하는 방법을 말한다. 문자열 포매팅하기¶다음과 같은 단어를 삽입할 위치릴 {}로 지정하고 format 메서드에 원하는 단어를 전달하면 {}의 위치에 전달한 단어를 삽입해 출력한다. 이떄 {}를 플레이스 홀더라고 부른다.¶ In [1]: var = &#39;flesh wound&#39; s = "It&#39;s just a {}" In [2]: prin..
<파이썬 판다스> Chapter 09-2 문자열 메서드 09-2 문자열 메서드 지금까지 인덱스 슬라이싱으로 문자열을 추출하는 방법을 알아보았다. 그런데 문자열이 너무 길어서 내가 원하는 문자가 몇 번째 인덱스에 있는지 파악하기 어렵거나 문자열에 포함된 소문자를 모두 대문자로 바꾸고 싶다면 어떻게 해야 할까? 이런 경우에는 문자열 메서드를 사용하면 된다. 자주 사용하는 문자열 메서드와 간단한 실습 코드를 다음 표에 정리했다. 문자열 표 아래에 있는 실습 코드를 정리한 표도 함께 읽어보자. 문자열 메서드¶ 메서드 설명 capitalize 첫 문자를 대문자로 변환한다. count 문자열의 개수를 반환한다. startswith 문자열이 특정 문자로 시작하면 참이 된다. endswith 문자열이 특정 문자로 끝나면 참이 된다. find 찾을 문자열의 첫 번째 인덱스를..
<파이썬 판다스> Chapter 09-1 문자열 다루기 09-1 문자열 다루기 파이썬과 문자열¶문자열은 작은따옴표나 큰따옴표로 감싸서 만든다. 다음은 작은따옴표로 grail, a scratch라는 문자열 데이터를 만들어 변수 word, sent에 저장한 것이다. In [1]: word = &#39;grail&#39; sent = &#39;a scratch&#39; 인덱스로 문자열 추출하기 데이터프레임에서 인덱스를 이용하여 원하는 데이터를 추출했던 것을 기억해보자. 문자열도 인덱스를 사용하여 추출할 수 있다. 문자는 길이가 1인 문자열로 생각하면 된다. 다음은 문자열과 인덱스를 함께 나타낸 표이다. 간단하게 살펴보고 실습으로 넘어가자. 문자열 grail과 인덱스¶ 인덱스 0 1 2 3 4 문자열 g r a i l 음수 인덱스 -5 -4 -3 -2 -1 문자열 ..
<파이썬 판다스> Chapter 08-2 카테고리 자료형 08-2 카테고리 자료형 판다스 라이브러리는 유한한 범위의 값만 가질 수 있는 카테고리라는 특수한 자료형이 있다. 만약 10종류의 과일 이름을 저장한 열이 있다고 가정할 경우 문자열 자료형보다 카테고리 자료형을 사용하는 것이 용량과 속도 면에서 더 효율적이다. 카테고리 자료형의 장점과 특징은 다음과 같다. 카테고리 자료형의 장점과 특징 - 용량과 속도 면에서 매우 효율적이다. - 주로 동일한 문자열이 반복되어 데이터를 구성하는 경우에 사용한다. 문자열을 카테고리로 변환하기¶sex 열의 데이터는 남자 또는 여자만으로 구성되어 있다. 그래서 카테고리 자료형으로 저장되어 있다. 만약 sex 열의 자료형을 문자열로 변환하면 어떻게 될까? sex 열의 자료형을 문자열로 변환한 다음 데이터프레임의 용량을 info ..
<파이썬 판다스> Chapter 08-1 자료형 다루기 08-1 자료형 다루기 자료형 변환하기 자료형 변환은 데이터 분석 과정에서 반드시 알아야 하는 요소 중 하나이다. 예를 들어 카테고리는 문자열로 변환해야 데이터 분석을 더 수월하게 할 수 있기 때문에 자주 변환하는 자료형이다. 또 다른 예는 전화번호이다. 전화번호는 보통 숫자로 저장한다. 하지만 전화번호로 평균을 구하거나 더하는 등의 계산은 거의 하지 않는다. 오히려 문자열처럼 다루는 경우가 더 많다. 다음 실습을 통해 여러 가지 자료형을 문자열로 변환하는 방법에 대해 알아보겠다. 자료형을 자유자재로 변환하기 - astype 메서드¶이번에 사용할 데이터 집합은 seaborn 라이브러리의 tips 데이터 집합이다.¶ In [19]: import pandas as pd import seaborn as sns..
<파이썬 판다스> Chapter 07-4 중복 데이터 처리하기 07-4 중복 데이터 처리하기¶ 이번에 다룰 빌보드 차트 데이터 artist, track, time, date.entered 열의 데이터가 반복된다. 이런 반복되는 데이터는 따로 관리하는 것이 좋다. 왜 따로 관리하는 것이 좋을까? 그리고 따로 관리하려면 어떻게 해야 할까? 다음 실습을 통해 중복 데이터를 처리하는 방법에 대해 알아보겠다. 빌보드 차트의 중복 데이터 처리하기¶다음은 빌보드 차트 데이터를 불러온 것이다.¶ In [1]: import pandas as pd billboard = pd.read_csv(&#39;doit_pandas_data/data/billboard.csv&#39;) billboard_long = pd.melt(billboard, id_vars=[&#39;year&#39;, &..