빅데이터가 가져오는 변화 

사전처리 => 사후처리

표본조사 => 전수조사

데이터의 질 => 데이터의 양

인과관계 => 상관관계


데이터의 변화

실시간 데이터 - 기존 사회과학에서는 과거 회고적인 데이터 수집했던 것과 차이

대용량 데이터 - 표본의 크기가 수백만 개 이상으로 많아져 통계적 유의성이 의미가 없어짐 

고차원 데이터 - 대부분의 사회과학 연구 데이터는 2차원 데이터형태인 것과 차이 


머신러닝 - AI의 구체적인 학습방법, 지도학습(Supervised learning)과 비지도학습(Unsupervised learning)으로 나뉨

딥러닝 - 지도학습 방법의 한 종류, 빅데이터의 출현으로 기존 인공신경망에서의 문제들이 해결되면서 딥러닝이 주목받고 있음


사회과학에서 데이터 분석

1. prediction

2. summarization and visualization

3. estimation

4. hypothesis testing

사회과학 연구자들은 3,4 번에 관심이 있다.

머신러닝 연구자들은 1번에 관심이 있다. 


지도학습(Supervised learning)

대부분의 머신러닝 기법이 지도학습에 속한다.

종속변수를 예측하는 것이 주 목적

주어진 데이터를 훈련데이터(train set)와 검증데이터(test set)로 나눈다.

훈련데이터를 통해 함수를 유추하고 검증데이터에 적용하여 예측모형의 성과를 측정한다.


비지도학습(Unsupervised learning)

종속변수가 없다. 

large data sets에서 dimension을 줄이는 것을 목적으로 한다.

주어진 관측치를 몇 개의 공통된 특성을 가진 그룹으로 나눈다. 

clustering 등의 방법을 이용한다. 


Overfitting Problem (과적합 문제)

in-sample에 아주 좋은 적합도를 보였지만, out-of-sample에서 매우 낮은 fit을 보이는 경우

가지고 있는 표본에 너무 적합시키다보니 예측력이 더 떨어짐

해결책 - 다양한 예측모형을 설정하여 각모형에 대해 out-of-sample에 대한 예측결과를 비교하여 최적의 모델을 찾는다.




'IT,인터넷 관련 학습 > R언어 학습' 카테고리의 다른 글

빅데이터 통계학 (3)  (0) 2019.04.05
빅데이터 통계학(2)  (0) 2019.04.05
R언어 : 다양한 통계차트  (0) 2019.03.02
R언어 : R 통계 관련 함수  (1) 2019.03.02
R 내장 data 설명  (0) 2019.03.02

+ Recent posts