개요

0.1 사회과학 + 프로그래밍 + 통계학

  • 사회과학을 프로그래밍으로 배운다.

  • 프로그래밍을 사회과학으로 배운다.

  • 사회과학과 프로그래밍으로 통계학을 배운다.

  • R프로그래밍을 통해 자료(data)를 수집/조작/분석해 그 의미를 추론하고, 이를 통해 사회현상을 해석해 문제해결 하는 능력을 다진다.

0.2 왜 프로그래밍인가?

0.2.1 21세기는 제2기계의 시대.

  • 제1기계
    • 전기 등의 에너지를 동력으로 전환하거나, 전환된 동력을 사용해 의도한 행위 수행(기관:engine)
    • 육체노동 대체
    • 사람이 기계를 직접 조작
  • 제2기계: 지식노동을 할수 있는 기계.
    • 동력을 사용해 데이터 1차 및 2차 부호화 작업 수행(컴퓨터)
    • 지식노동 대체
    • ’언어’를 통해 간접조작.

사무직의 종말

  • 전통적으로 사람 고유의 업무영역으로 여겼던 사무를 기계가 대체
  • 기계가 대체하는 업무에는 전문직 지식노동(법, 회계, 보도 등) 포함.

0.2.2 새로운 수요

  • 제1기계 혁명
    • 육체노동을 대체하는 새로운 수요 발생
    • 제1기계를 다루는 사람(기능인, 기술자)
    • 제1기계를 다루는 사람 관리(경영자, 관리자)
  • 제2기계 혁명
    • 지식노동 대체을 대체하는 새로운 수요는?
    • 제2기계를 다루는 사람
  • 로봇이 더 잘할 수 있는 것들
    • 단순, 규칙적인 사실
    • 검색, 안내, 기장, 사건 및 시황 보도 등
  • 인간은?
    • 복잡한, 창의적인 활동
    • 기획, 탐사, 심층 분석 등
    • 이런 일을 기계와 함께 수행!!!

국제화 시대에 영어 등 외국어 능력이 필수적이듯, 제2기계의 시대에서는 제2기계와의 소통수단인 코딩 능력이 필수.

코딩과 프로그래밍은 같은 말이나, 굳이 구분한다면 다음과 같은 차이가 있다.

  • 코딩 인간의 언어를 기계가 이해할 수 있는 코드(code: 부호)로 작성하는 행위.

  • 프로그래밍 특정 작업을 수행하는 일련의 명령어 집합(프로그램)을 구성하는 행위.

비유하자면, 소설을 쓰는 것이 프로그래밍. 글을 쓰는 것이 코딩에 해당한다고 할 수 있다.

0.2.3 제2기계 사용 위계

  • 1단계
    • 응용프로그램 이용: Point & Click
  • 2단계
    • 저급 프로그래밍: 사전 제작된 함수나 패키지(라이브러리) 사용
  • 3단계
    • 고급 프로그래밍: 필요한 함수나 알고리듬 개발

프로그래밍 없이도 제2기계를 부리는 것이 불가능하지는 않다. 그러나 제한적. 비유하자면, 대중교통과 자가용 이용의 차이. 운전을 하지 못해도 택시를 통해 자동차를 이용할 수 있지만(1단계), 자가용처럼 사용(2단계)하는 것은 불가능. 자동차 엔진을 직접 튜닝할수 있는 능력(3단계)까지는 아니더라도, 최소한 운전(코딩/프로그래밍) 정도는 할수 있는 능력 필요.

문맹은 글을 읽고 쓰지 못하는 사람.

프로그래밍은 기계가 이해할 수 있는 글을 읽고 쓰는 능력.

0.3 왜 과학인가?

과학은 세상을 이해하는 인식의 방법. 체계적인 논리와 체계적 경험을 동원한 인식의 방법. 직관에 의존하는 논리와 경험과는 구분.

아무리 눈에 명백하게 보여도 실제로는 다른 현상일 가능성이 높다. 착시가 대표적인 사례. 아래 착시(optical illusion) 그림을 보자 (Figure 0.1). 우리 눈에 명백하게 길게 보이는 것은 위의 노란 선이다. 그러나 아래의 노란 선과 위의 노란 선의 실제 길이는 같다.

Ponzo Illusion

Figure 0.1: Ponzo Illusion

직관을 극복하기 위해서는 과학, 즉 체계적인 논리와 체계적인 경험이 필요하다. 노란선 주변의 선이 맥락으로 작용해 위의 선이 길게 보이는 것(체계적 논리)이다. 실제로 두 선의 길이를 측정해 보면(체계적 경험) 논리를 뒷받침한다.

과학은 쉽지 않다. 종종 직관에 반하기 때문이다. 과학하는 방법을 알아야 직관을 극복할 수 있다.

0.4 왜 통계학인가?

통계학(statistics)을 통해 과학이 가능하다. 체계적 경험의 핵심을 이루는 방법 중 하나이기 때문이다.

통계학은 인식의 대상을 계량화(quantify)하여 인식의 대상이 무엇인지 숫자를 통해 파악할 수 있도록 하는 체계 또는 학문이다. (계량적으로 접근하는 사회과학을 계량사회과학(Quantitative Social Science)이라고 한다.)

즉, 통계학은 인식의 대상에 대해 자료를 수집, 정리, 분석하고, 그 결과를 토대로 불확실한 상황에서 합리적인 의사결정을 할수 있도록 하는 체계 또는 이를 가능하게 하는 이론과 방법을 연구하는 학문이다.

통계학은 크게 기술통계학과 추론통계학으로 구분한다.

  • 기술통계학(descriptive statistics)
    측정하여 얻은 자료를 정리하고 요약함으로써 자료의 특성을 표현하는 절차와 기법

  • 추론통계학(inferential statistics)
    인식의 대상(모집단)에 대해 측정하여 얻은 자료(표본)에 대한 기술통계를 바탕으로 모집단의 특성에 대해 추론하는 절차와 기법

데이터과학(data science)도 일종의 통계학이다. 통계에 프로그래밍과 영역지식을 더하여 불확실한 상황에서 합리적인 의사결정을 할수 있도록 하는 체계 또는 이를 가능하게 하는 이론과 방법을 연구하는 학문이다.

통계(statistic)
인식의 대상에 대해 측정(관찰, 설문, 실험, 내용분석 등)하여 얻은 자료를 정리하고 분석한 결과(복수 ’s’가 없다.)

0.5 학습내용

  1. 기초: R, 사용자함수, 반복문, 조건문
  2. 수집/정제: 자료구조, 기술통계, 시각화
  3. 수집/정제: 결측값, 변수생성, 자료변형
  4. 분석: 탐색(상관과회귀)
  5. 분석: 인과모형
  6. 분석: 추론
  7. 분석: 예측
  8. 소통: 마크다운

0.6 참고도서


Copyright(c) 2022 All rights reserved by Dohyun Ahn