Python pandas - 상관관계 분석 -2

2018. 11. 6. 22:31ㆍPython/pandas

지난 시행착오를 통해 분석을하는데 데이터를 어떻게 만들어주느냐가 중요하다는걸 깨달았다.

그러려면 분석을 공부해야될것같다....

일단은 pandas의 사용법을 익히고있으니 그거에 맞춰서만 진행해보자

지난 데이터의 잘못된점을 찾아본다면,

내가 상관관계의 분석을 a의 변화에 맞춰서 b의 변화가 얼마나 이루어지나로 이해했다고 해놓고

데이터는 값이 변화하는걸 뽑은게 아니라, 여자와 남자의 구분수가 얼마나 있는지를 뽑았으니

원하는 결과가 안나왔던거 같다.

그럼 값이 변화하는 데이터를 뽑아보자.

import pandas as pd

from pandas import DataFrame

from pandas import Series

import numpy as np
import matplotlib.pyplot as plt
# Reading abalone data set
pd.set_option('display.float_format', None)
co = pd.read_excel("D:\Project\myProject\python\pandas\CO.xlsx",
                   sheet_name='Sheet1')

# 필요한열만가지고옴#
co2 = co[ ["남여구분","월소득액","주민번호 앞자리"] ]


## 월소득액이 nan 인거 제거
co2 = co2.dropna()
co2

Out[48]:

	남여구분	월소득액	주민번호 앞자리
1	여성	1000000.0	830707
25	남성	1430000.0	530804
26	남성	1430000.0	530804
27	남성	1430000.0	530804
52	남성	695880.0	541116
53	남성	695880.0	541116
63	여성	700000.0	530138
88	여성	800000.0	530136
94	여성	3500000.0	170916
153	여성	510000.0	330930
154	여성	510000.0	330930
172	여성	520000.0	681130
179	여성	1000000.0	600630
244	남성	30.0	490805
245	남성	1600000.0	530518
339	남성	500000.0	380716
340	남성	500000.0	380716
360	남성	590840.0	570930
379	여성	2000000.0	531030
381	여성	500000.0	671314
396	여성	0.0	730608
441	남성	650000.0	440337
447	남성	650000.0	440337
452	여성	340000.0	430304
453	여성	640000.0	510314
454	여성	130.0	510706
467	여성	564550.0	470335
477	남성	1400000.0	530104
480	여성	695880.0	470335
488	여성	695880.0	470335
...	...	...	...
64538	남성	120000.0	511004
64546	남성	555950.0	700536
64551	남성	55950.0	700536
64584	남성	1700000.0	530338
64606	남성	1180000.0	391110
64619	남성	4000000.0	770801
64643	남성	1100000.0	490737
64648	남성	900000.0	530539
64660	남성	600000.0	630806
64671	남성	600000.0	630806
64703	남성	1000000.0	530703
64705	남성	400000.0	600307
64722	남성	2000000.0	851113
64729	남성	537000.0	840430
64747	남성	0.0	981313
64809	남성	1500000.0	530405
64820	여성	595880.0	390903
64821	여성	100000.0	400133
64822	여성	100000.0	400133
64823	여성	100000.0	400133
64824	여성	100000.0	400133
64827	남성	674480.0	581031
64834	여성	500000.0	350709
64875	여성	3000000.0	161119
64885	여성	130.0	790618
64897	여성	5000000.0	170706
64929	여성	204010.0	350408
64932	여성	400000.0	380818
64940	여성	1400000.0	511113
64941	여성	0.0	530930

5678 rows × 3 columns

값이 변화할만한 데이터가 마땅치 않아서, 주민번호와 월소득액을 이용해서

주민번호에따른 월소득액의 상관관계가 어떻게 되는지를 분석해보도록 하겠다.

(상관관계분석이란 이런식의 데이터 분석이 맞는것같다...)

주민번호를 그대로 사용해도되지만, pandas에 익숙해지기 위하여 앞부분2자리만 잘라서 데이터를 만드는걸

해보기로했다.

co2["월소득액"] =  co2["월소득액"].astype(int)

## 월소득액이 10000보다 작은 값이 있을 경우 포맷에 맞춰 변경
co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0)  , ["월소득액"]] = co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0) , ["월소득액"]] * 10000
##주민번호 앞자리 string 변경 substring 후 다시 int 변환
co2["주민번호 앞자리"] =  co2["주민번호 앞자리"].astype(str)
co2['주민번호 앞자리'] = co2['주민번호 앞자리'].apply(lambda e: e[0:2])
co2["주민번호 앞자리"] = co2["주민번호 앞자리"].astype(int)
co2 = co2[co2["주민번호 앞자리"] > 48]
#인덱스 기준 정렬 axis = 0 인덱스  axis = 1 컬럼 , ascending=False -> 내림차순
#co2.sort_index(axis=1)
co2.sort_values(by="주민번호 앞자리")

Out[63]:

	남여구분	월소득액	주민번호 앞자리
14226	여성	300000	49
17025	남성	600000	49
17026	남성	600000	49
53533	여성	500000	49
48395	남성	520000	49
38297	남성	1000000	49
17027	남성	600000	49
38295	남성	1000000	49
57217	남성	621210	49
53513	여성	500000	49
57216	남성	920000	49
32944	여성	690000	49
44761	여성	420000	49
57214	남성	621210	49
51533	여성	202600	49
57213	남성	830000	49
48391	남성	520000	49
48385	남성	520000	49
48379	남성	520000	49
31224	남성	1300000	49
54467	여성	0	49
57197	남성	621210	49
48399	남성	520000	49
48403	남성	520000	49
48406	남성	520000	49
48409	남성	520000	49
48363	남성	520000	49
20504	여성	246050	49
20503	여성	246050	49
42235	여성	666210	49
...	...	...	...
29884	남성	1100000	94
48832	남성	800000	94
58563	남성	714640	94
49521	남성	600000	95
26236	여성	1100000	95
26233	여성	1100000	95
13615	여성	1600000	95
31955	남성	2000000	95
26239	여성	1100000	95
26238	여성	1100000	95
26237	여성	1100000	95
26235	여성	1100000	95
26234	여성	1100000	95
59053	남성	0	95
13614	여성	1800000	95
59051	남성	0	95
13613	여성	1800000	95
15823	여성	535860	96
19752	남성	650380	96
56641	여성	700000	96
21853	여성	50000	96
15826	여성	535860	96
13661	남성	970400	97
42379	남성	540000	97
64747	남성	0	98
43613	남성	2000000	98
58991	여성	0	98
15656	여성	0	99
22193	남성	0	99
43129	여성	2400000	99

3332 rows × 3 columns

## 월소득액이 10000보다 작은 값이 있을 경우 포맷에 맞춰 변경
co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0)  , ["월소득액"]] = co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0) , ["월소득액"]] * 10000
##주민번호 앞자리 string 변경 substring 후 다시 int 변환
co2["주민번호 앞자리"] =  co2["주민번호 앞자리"].astype(str)
co2['주민번호 앞자리'] = co2['주민번호 앞자리'].apply(lambda e: e[0:2])
co2["주민번호 앞자리"] = co2["주민번호 앞자리"].astype(int)
co2 = co2[co2["주민번호 앞자리"] > 48]

이부분을 하는데 애를먹었다.

설명을 하자면

## 월소득액이 10000보다 작은 값이 있을 경우 포맷에 맞춰 변경 co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0) , ["월소득액"]] = co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0) , ["월소득액"]] * 10000

부분은 월소득액이 어떤거는 2400000 으로되어있고, 어떤거는 240 으로되어있어서 format을 맞춰주는 작업이 필요하였다.

어떤식으로 진행해야될지몰라 여러번시도한결과 위와같이 사용했다.

co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0) , ["월소득액"]] =

는 월소득액이 <10000보다 작고 0보다 큰 조건일때의 월소득액 column을 loc로 선택하고, 거기에 값을 대입하는데

 co2.loc[(co2["월소득액"] < 10000) & (co2["월소득액"] > 0) , ["월소득액"]] * 10000

그조건에 해당하는 값에 * 10000을 해준다는 의미다..

코드가 너무 번거롭고 수준이 낮은것같지만 (다른방법이 많을듯) 현재로서는 이것밖에 생각이 안났다.

##주민번호 앞자리 string 변경 substring 후 다시 int 변환
co2["주민번호 앞자리"] =  co2["주민번호 앞자리"].astype(str)
co2['주민번호 앞자리'] = co2['주민번호 앞자리'].apply(lambda e: e[0:2])
co2["주민번호 앞자리"] = co2["주민번호 앞자리"].astype(int)

substring을 해줄려고 보니, python에서는 substring이 없는것같았다?????(맞나??)

자를때 사용을 str[0:2] 이런식으로 사용하는걸로 판단하였고, 이걸 각 값마다 어떻게 적용해줄까 찾아보니

lambda 식이란게 존재하여 lambda식을 사용하였다.

정확하게 찾아본건아니지만 사용되는 형식만 봤을땐

자바스크립트로 따지면

apply(function (e) { e = e.substring(0,2)}) 뭐 이런 느낌인것같아서

문자열자르기인 e[0:2] 를 사용해보니까 적용되었다.

이제 드디어 pandas 의 상관관계 분석 함수인 corr 을 적용해보겠다.

co2.corr()

Out[62]:

	월소득액	주민번호 앞자리
월소득액	1.00000	0.01039
주민번호 앞자리	0.01039	1.00000

???????

이게 내가 원하는 값인가?? 라는 생각이 들었다. 제대로 적용한게 맞고, 이렇게 사용하는게 맞나??

그럼 두개는 상관관계가 거의없다고 인식해도되는것일까??

데이터가 실제로 변화가 거의없는것일까???

이를 확인해보기위해 직접 데이터를 만들어보고 상관관계분석을 해봐야될것같다

test_date = {'월소득액': [1000, 1000, 990, 800, 700, 670, 640, 620, 610, 600,590,580,570,560,550,540,530,520,510,300,300,280],
            '주민번호 앞자리': [40, 40, 41, 42,50,51,51,53,55,58,58,60,62,66,68,80,82,85,88,93,93,93]
            }
#22,22
co3 = pd.DataFrame(test_date)

Out[71]:

	월소득액	주민번호 앞자리
0	1000	40
1	1000	40
2	990	41
3	800	42
4	700	50
5	670	51
6	640	51
7	620	53
8	610	55
9	600	58
10	590	58
11	580	60
12	570	62
13	560	66
14	550	68
15	540	80
16	530	82
17	520	85
18	510	88
19	300	93
20	300	93
21	280	93

In [72]:

co3.corr()

Out[72]:

	월소득액	주민번호 앞자리
월소득액	1.000000	-0.887109
주민번호 앞자리	-0.887109	1.000000

주민번호에 따라 월소득액이 작아지게 data를 만들고 적용해본결과!!

원하는 결과가 나왔다.

-0.0887109

이를 통해 위의 데이터도 맞고, 상관관계분석은 이렇게 사용한다는것을 알았다.

이제 방금뽑은 데이터를 이용해서 그래프를 그려주면 이쁠것같은데....

'Python > pandas' 카테고리의 다른 글

Python pandas - 상관관계 분석 -1 (0)	2018.11.06
Pandas 엑셀파일읽고 데이터 컨트롤 (0)	2018.10.17
Python Pandas 시작 (0)	2018.09.28

개발자가 되자

개발자가 되자

태그

최근글

댓글

공지사항

아카이브

'Python > pandas' 카테고리의 다른 글

관련글

티스토리툴바