2018. 11. 6. 21:29ㆍPython/pandas
Python 을 이용해서 상관관계 분석을 실행하기에 앞서 상관관계분석이란 무엇인지 간단하게 알아보고왔다.
상관 분석(correlation analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.
상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.
상관계수 : 등간척도 이상의 두 변수 중에서 한 변수의 변화가 다른 변수의 변화에 따라 어떤 변화가 일어나는지를 보여주는 지표. (-1.00 ~ +1.00) 의 값
상관관계 : 한 변수의 변화에 따른 변수의 변화 정도와 방향을 예측하는 분석기법
분석에대해 전혀 모르는 내가 이해한 상관관계 분석이란
a, b 가있을때 a값이 증가,감소에따라 b는 어떻게변하는지를 상관계수로 표현하고 그상관계수를 이용해
2차원 그래프를 그리면 (수학에서 배운 y=x) 그걸보고 값이 증가하는지, 감소하는지를 판별한다고 생각하였다....
그리고 jupyter notebook 이란걸 알게되어 여기서 작업하면 더 잘보일것같아서 적용후 작업했다.
import pandas as pd from pandas import DataFrame from pandas import Series import numpy as np import matplotlib.pyplot as plt # Reading abalone data set pd.set_option('display.float_format', None) co = pd.read_excel("D:\Project\myProject\python\pandas\CO.xlsx", sheet_name='Sheet1') # 필요한열만가지고옴# co2 = co[ ["남여구분","업무구분","보장구분"] ] ## 월소득액이 nan 인거 제거 co2 = co2.dropna() #data_group = co2.groupby(co2['업무구분']).count() co2
지난공부와 똑같이 데이터를 만들었는데 jupyter notebook? 의 가장 좋은점은 바로 위와같이 데이터가 깔끔하게 정렬되는것인것 같다.
data_group1 = co2.loc[co2["남여구분"] == "여성",["업무구분"]]
data_group2 = co2.loc[co2["남여구분"] == "남성",["업무구분"]]
data_group1
data_group_ct1 = data_group1.groupby(data_group1["업무구분"]).size().reset_index(name='여')
data_group_ct2 = data_group2.groupby(data_group2["업무구분"]).size().reset_index(name='남')
data_group_ct1
df_sex = pd.merge(data_group_ct1,data_group_ct2,on="업무구분")
df_sex
'Python > pandas' 카테고리의 다른 글
Python pandas - 상관관계 분석 -2 (0) | 2018.11.06 |
---|---|
Pandas 엑셀파일읽고 데이터 컨트롤 (0) | 2018.10.17 |
Python Pandas 시작 (0) | 2018.09.28 |