본문 바로가기
카테고리 없음

[딥러닝 독학] 1. 머신러닝의 기초 개념

by 김감뀰 2023. 5. 29.
728x90
반응형

1. Machine learning 기초 개념

 

혼자서 머신러닝에 대해서 조금 공부해 볼 건데 이왕 하는 거 여기에도 같이 정리해 볼게요

첫 시간이어서 머신러닝에서 사용되는 용어, 기초 개념에 대해 알아볼게요

 

차례
1. Machine learning 기초 개념
  1-1. Machine learning이란
  1-2. data
    - sample space of 수박
  1-3. Training
    - data-driven hypothesis
  1-4. Label
    (1) Classification 문제
      - Binary classification
      - Multi-class classification
    (2) Regression 문제
  1-5. Testing

 

1-1. Machine learning이란 

Machine learning (기계학습)

: 컴퓨터로 경험을 활용해 시스템을 개선해 나가는 방법론

 

컴퓨터 시스템에서 일반적으로 경험은 data 형식으로 존재한다.

machine learning이란 컴퓨터를 활용해 data에서 하나의 model을 만들어내는 learning algorithm을 이야기한다.

→ 머신러닝이란 data를 통해서 model을 만들어가는 과정

model은 data를 대상으로 learning algorithm이 학습한 결과물로 머신러닝의 output이다.

새로운 상황에 대면했을 때 모델은 우리에게 이에 상응하는 판단을 제공한다.

1-2. data

data set

예를 들어 수박에 대한 데이터를 수집했다면 이와 관련된 기록들의 집합을 data set이라고 한다.

sample

하나의 대상을 instance 또는 sample이라고 한다.

feature

색깔, 소리 등 대상의 성질을 반영하는 것을 attribute 또는 feature라고 한다.

feature value

청록색, 진녹색, 연녹색 등 feature에 대해 취할 수 있는 값을 attribute value 혹은 feature value라고 한다.

sample space

이런 feature value가 sample 별로 투영되어 있는 공간을 sample space라고 한다.

- sample space of 수박

딥러닝 - 수박에 대한 정보를 sample space에 표현한 것이다.

일반적으로 m개의 sample을 가진 데이터 세트를 나타내고 각 sample은 d개의 속성으로 묘사된다.

 

$D = \{x_1, x_2,..., x_m\}$

그러므로 각 sample $x_i = (x_{i1};x_{i2};... x_{id})$ 는 d차원의 sample 공간 $\chi$ 위 하나의 벡터 $x_i \in \chi$이다.

또한 $x_{ij}$는 j번째 속성 위에서의 $x_i$값이다.

여기서 d는 sample $x_i$의 차원수 (dimensionality)라고 한다.

feature는 data의 차원을 결정한다.

 

머신러닝을 통해서 배우고자 하는 data라고 하는 것은 feature들의 종류에 의해 이루어진 축에 존재하는 sample들의 분포이다.

  → 여기서부터 머신러닝이 이루어지게 된다.

 

이 분포로부터 각각의 feature에 어떤 패턴을 가지고 data가 분포해 있고, 어떤 양상을 띠고 있고, 잘 익은 수박과 안 익은 수박이 있다면 이것들이 feature의 어떤 패턴에 의해서 분포해있는지, 이 분포를 확인해서 새로운 수박이 왔을 때 잘 익은 수박인지 안익은 수박인지 어떻게 예측할 수 있는지를 다룬다.

 

1-3. Training

Training data를 통해 model을 만들어가는 과정을 training이라고 한다.

 

taining data

training에 사용된 data를 training data

tarining sample

사용된 sample은 training sample

training set

training sample의 집합을 training set이라고 한다.

hypothesis

model은 data 속에 잠재된 어떠한 규칙에 대응하며 이를 hypothesis라고 한다.

    → 이 training을 통해 얻고 싶은 것은 hypothesis를 세우는 것이다.

model training 과정은 data를 통해 hypothesis를 세우고 잠재되어 있는 규칙을 찾아내기 위함이다.

 

- data-driven hypothesis

data가 feature에 어떻게 분포하는지를 가지고 찾는 hypothesis이기 때문에 data-driven hypothesis라고 한다.

만약 우리가 수박을 잘라보지 않고 잘 익었는지를 판단할 수 있는 모델을 만들어야 한다면 앞에서 언급한 data로는 부족하다.

현재는 수박의 색, 꼭지의 모양, 단단함의 정도에 대한 정보만 있는데 얼마나 잘 익었는가에 대한 ‘결과’ 정보가 없다.

 

1- 4. Label

결과를 나타내는 정보를 label이라고 한다.

(1) Classification 문제

만약 우리가 예측하려는 값이 “잘 익은 수박”, “덜 익은 수박” 같은 discrete value일 경우, 이런 학습 문제를 classification 문제라고 한다.

- Binary classification

생물학에서 가장 대표적인 classification 문제는 label이 2개인 경우를 대상으로 한다.

이렇게 label이 2개인 경우는 binary classification라고 한다.

보통 positive (1) value와 negative (0) value로 나눠진다.

- Multi-class classification

label이 2개 이상일 경우 multi-class classification라고 한다.

 

(2) Regression 문제

만약 예측하려는 값이 “0.95, 0.37”처럼 수박의 당도와 같은 continuous value일 경우, 이런 학습 문제를 regression이라고 한다.

 

1-5. Testing

model training 후, 해당 model을 활용하여 예측하는 과정을 testing이라고 한다.

testing sample

testing에 사용되는 sample을 testing sample이라고 한다.

 

 

 

다음시간에는 기계학습의 목표에 대해서 알아볼게요

 

ref.

edwith 기계학습 및 딥러닝 기초 이론과 암유전체 데이터 딥러닝 적용 실습 (2023)

 

 

728x90
반응형

댓글