Python (57) 썸네일형 리스트형 <파이썬 판다스> Chapter 07-2 열 이름 관리하기 07-2 열 이름 관리하기¶ 하나의 열이 여러 의미를 가지고 있는 경우 어떤 열은 여러 가지 의미를 가지고 있을 수 있다. 예를 들어 ebola 데이터 집합의 열중 하나인 Deaths_Guinea는 '사망자 수'와 '나라 이름'을 합쳐 만든 이름이다. 그러면 ebola 데이터 집합을 살펴보면서 하나의 열이 여러 가지 의미를 가지고 있다는 것이 무엇인지 구체적으로 알아보자. ebola 데이터 집합 살펴보기¶ 다음은 ebola 데이터를 불러온 다음 0, 1, 2, 3, 10, 11열의 5개 데이터만 확인한 것이다. In [2]: import pandas as pd ebola = pd.read_csv('doit_pandas_data/data/country_timeseries.csv') print.. <파이썬 판다스> Chapter 07-1 열과 피벗 07-1 열과 피벗¶ 넓은 데이터 데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 한다. 예를 들어 ebola 데이터프레임 열은 사망한 날짜(Date), 발병 국가(Case_Guinea) 등의 데이터를 저장하고 있다. 하지만 이번에 다루는 데이터프레임은 열은 열 자체가 어떤 값( <파이썬 판다스> Chapter 06-1 누락값 처리하기 06-1 누락값이란?¶ 누락값과 누락값 확인하기 누락값(NaN)은 NaN, NaN, nan과 같은 방법으로 표기할 수 있다. 여기서는 누락값을 NaN이라고 표기하여 사용한다. 그러면 바로 실습을 진행해 보면서 누락값이 무엇인지 알아보겠다. 누락값을 파이썬에 사용하려면 넘파이(numpy) 라이브러리가 필요하다. 넘파이 라이브러리는 수학이나 과학 연산을 위해 만든 파이썬 라이브러리이다. 누락값 확인하기¶ 먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러온다. In [1]: from numpy import NaN, NAN, nan 누락값 0, ''와 같은 값과는 다른 개념이라는 것에 주의해야 한다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미한다. 그래서 '같다'라는 개념도 없다. 다음은 누락값.. <마케팅 데이터 사이언스> Chapter 01-2 마케팅 데이터 분석을 위한 가장 중요한 첫걸음 1. Data Driven Decision Marking의 첫 번째 과정은? 의사결정에 필요한 단계적 접근 예시) 통신 서비스를 제공하는 회사들의 고객이 약정 기간 후 이탈하는 문제가 있어서 다른 회사로의 고객 이탈을 막기 위해 데이터 사이언스를 이용한다면, 처음부터 전략을 만들려고 생각하면 안된다. 전략을 만들기까지 단계를 논리적으로 생각하고, 각 단계에서 해야 하는 질문과 답을 생각해야 한다. 1. 왜 옮기는가? 다른 회사로 이탈하려는 고객을 막으려면 왜 옮기는지를 알아야 한다. 2. 누가 옮기는가? 수많은 그룹중에 옮기는 그룹은 누구인가? 3. 누구를 잡아야 할까? 옮길 확률이 높은 사람들 중에서 "누구를 잡아 할까?" 라는 의문이 생길것이다. 옮길 확률이 높은 사람들 중에는 회사 매출을 더 만들어.. <파이썬 판다스> Chapter 05-3 데이터 연결 마무리 05-3 데이터 연결 마무리¶ 판다스는 데이터 연결 전용 메서드인 merge를 제공한다. merge 메서드의 사용 방법을 ㅅㄹ습하면서 데이터 연결을 마무리하겠다. merge 메서드 사용하기¶ 다음은 특정 위치의 날씨 정보에 필요한 데이터 집합을 모두 불러온 것이다. person은 관측한 사람의 이름, site는 관측 위치, visited는 관측 날짜, survey는 날씨 정보이다. In [2]: import pandas as pd person = pd.read_csv('doit_pandas_data/data/survey_person.csv') site = pd.read_csv('doit_pandas_data/data/survey_site.csv') survey = pd.rea.. <파이썬 판다스> Chapter 05-2 데이터 연결 기초 05-2 데이터 연결 기초¶ 데이터 연결하기¶1. concat 메서드로 데이터 연결하기¶데이터를 연결하려면 concat 메서드를 사용하면 된다. 다음 예제를 통해 concat 메서드의 사용법을 익혀보겠다. 준비된 CSV 파일을 읽어 들어 변수 df1, 2, 3에 저장한다. concat은 연결(concatenation)이라는 단어에서 따온 것이다. In [1]: import pandas as pd df1 = pd.read_csv('doit_pandas_data/data/concat_1.csv') df2 = pd.read_csv('doit_pandas_data/data/concat_2.csv') df3 = pd.read_csv('doit_pandas_data/data/co.. <파이썬 판다스> Chapter 05-1 분석하기 좋은 데이터 05-1 분석하기 좋은 데이터¶ 분석하기 좋은 데이터란? 분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말한다. 데이터 분석 단계에서 데이터 정리는 아주 중요하다. 실제로 데이터 분석 작업의 70% 이상 차지하고 있는 작업이 데이터 정리 작업이다. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 특별히 깔끔한 데이터(Tidy Data)라고 부른다. 깔끔한 데이터의 조건¶ 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 한다. 측정한 값은 행(row)를 구성해야 한다. 변수는 열(column)로 구성해야 한다. 아직은 깔끔한 데이터가 왜 중요한지 알 수 없겠지만 실습을 하나씩 진행하다 보면 깔끔한 데이터의 중요성에 대해 .. <마케팅 데이터 사이언스> Chapter 01-1 Marketing Analytics 이해하기 1. Marketing Analytics 이해하기 마케팅 노력이 얼마나 성과를 내고 있는가를 모니터링하고 분석하는 모든 과정이다. 고객 개개인의 선호도나 소비패턴, 트렌드 등에 대해서도 파악할 수 있다. e-commerce business의 경우 어떤 그룹의 고객이 있을지 분석하고 이들 가운데 어떤 특성을 가진 고객이 많은 수익을 내게 해주는가를 분석할 수 있다. Marketing Analytics는 마케팅 비용이 얼마나 효과적으로 집행될 수 있을까를 알아내는데 도움을 준다. ROI를 비교함으로써 미래에 어떤 마케팅 전략을 써야 할 지 정할 수 있다. 데이터를 이용한 마케팅에서 가장 주목받고 있는 부분중 하나는 Personalized marketing과 Target marketing이다. 머신러닝 방법들.. 이전 1 2 3 4 5 6 7 8 다음