스킵네비게이션

AI Studio 열린 미래 꿈이있는 대학, 동아대학교

AI Materials

Machine Learning Model

01

Linear Regression(선형회귀)

선형 회귀 (Linear Regression)는 기계 학습과 통계 분석에서 사용되는 간단한 예측 모델입니다. 이 모델은 데이터 포인트들 간의 선형 관계를 모델링합니다. 주로 종속 변수와 하나 이상의 독립 변수 간의 관계를 설명하거나 예측하기 위해 사용되며, 회귀선(직선)을 학습하여 값을 예측합니다. 선형 회귀는 데이터를 가장 적합하게 표현하는 직선을 찾는 과정으로, 예를 들어 주택 가격 예측, 매출 예측, 경제 분석 등 다양한 예측 작업에 활용됩니다.

02

Logistic Regression

로지스틱 회귀(Logistic Regression)는 분류 문제에 사용되는 통계 기반의 머신 러닝 모델입니다. 이 모델은 입력 특성과 가중치를 결합하여 로지스틱 함수를 사용하여 확률을 예측하며, 주로 이진 분류(두 개의 클래스)를 다루는 데 사용됩니다. 로지스틱 회귀는 선형 회귀와 달리 출력값을 확률로 제한하여 분류 문제에 적합하며, 예를 들어 스팸 메일 감지, 질병 진단, 고객 이탈 예측과 같은 분류 작업에 적용됩니다.

03

K-Means

K-Means는 비지도 학습 기법 중 하나로, 데이터 포인트를 그룹으로 클러스터링하는 데 사용됩니다. 이 알고리즘은 각 클러스터의 중심(centroid)을 찾아 데이터 포인트를 가장 가까운 중심에 할당하고, 중심을 업데이트하여 클러스터를 반복적으로 조정합니다. K-Means는 주로 데이터를 비슷한 그룹으로 묶거나 패턴을 발견하는 데 활용되며, 클러스터링, 이미지 압축, 고객 세분화, 이상치 탐지 등 다양한 응용 분야에서 사용됩니다. 클러스터 수인 K를 사전에 지정해야하며, 알고리즘이 수렴하면 데이터가 K개의 클러스터로 그룹화됩니다.

04

KNN

K-Nearest Neighbors (KNN)는 데이터 포인트를 분류하거나 예측하는 데 사용되는 간단한 머신 러닝 알고리즘 중 하나입니다. 이 알고리즘은 주어진 데이터 포인트 주변의 가장 가까운 이웃들을 찾아 그 이웃들의 다수 클래스 레이블을 기반으로 해당 데이터 포인트를 분류합니다. KNN은 거리 측정 방법을 사용하여 이웃을 결정하며, K 값은 이웃의 개수를 나타냅니다. 이 알고리즘은 데이터가 균일하게 분포하고 차원이 적을 때 잘 작동하며, 분류, 회귀 및 이상치 탐지 작업에 활용됩니다.

05

SVM

SVM (Support Vector Machine)은 데이터 분류와 회귀 문제를 해결하는 지도 학습 알고리즘 중 하나입니다. SVM은 주어진 데이터를 가장 잘 나누는 결정 경계(하나 이상의 초평면)를 찾는 데 중점을 두며, 이 결정 경계를 찾을 때 데이터 포인트들 간의 최대 마진(거리)을 최적화하려고 합니다. 이러한 최적화 과정에서, 일부 데이터 포인트들이 서포트 벡터가 되며 결정 경계의 위치를 결정합니다. SVM은 선형 및 비선형 문제를 다룰 수 있으며, 분류 및 회귀 작업에 적용됩니다. SVM은 고차원 데이터나 특성 공간에서도 잘 작동하며, 이상치에 강한 성능을 보이는 특징이 있습니다.

06

PCA

PCA (Principal Component Analysis)는 다차원 데이터의 차원 축소 및 주요 특성 추출을 위한 통계적 기법입니다. PCA는 데이터의 분산을 최대로 보존하는 새로운 변수들, 주성분(principal component)을 찾아냅니다. 이 주성분들은 데이터의 가장 중요한 변동성을 나타내며, 원래 데이터 공간보다 낮은 차원의 공간으로 투영될 때 정보 손실을 최소화합니다. PCA는 데이터 압축, 시각화, 잡음 제거 및 특성 선택과 같은 다양한 응용 분야에서 사용되며, 데이터를 간결하게 표현하고 분석하기 위한 강력한 도구입니다.

07

DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 밀도 기반 클러스터링 알고리즘으로, 데이터 포인트 주변의 밀도를 기반으로 클러스터를 식별하는 데 사용됩니다. 이 알고리즘은 점이 다른 포인트와 일정 거리 내에 존재하면 클러스터에 속하며, 밀도가 낮은 지역에 있는 데이터 포인트는 잡음(noise)으로 처리합니다. DBSCAN은 클러스터의 모양과 크기에 민감하지 않으며, 클러스터의 개수를 미리 지정할 필요가 없습니다. 이러한 특징으로 DBSCAN은 이상치 탐지와 공간 데이터 마이닝에서 유용하게 활용됩니다.

08

Random Forest

Random Forest는 앙상블 학습 방법 중 하나로, 여러 결정 트리를 조합하여 더 강력한 예측 모델을 형성하는 머신 러닝 알고리즘입니다. 각 결정 트리는 데이터의 부분 집합에 대해 학습하고, 예측을 수행합니다. 이때 랜덤한 샘플링 및 특성 선택을 사용하여 다양성을 촉진하며, 과적합을 줄이고 안정적인 예측을 제공합니다. Random Forest는 분류와 회귀 문제에 적용되며, 고차원 데이터와 다양한 데이터 유형에 효과적으로 적용됩니다.

09

Decision Trees

Decision Trees(의사 결정 트리)는 데이터를 분류 또는 예측하는 데 사용되는 머신 러닝 모델입니다. 이 모델은 질문에 대한 이진 답변(예/아니오)을 통해 데이터를 재귀적으로 분할하여 결정 경계를 형성합니다. 각 분할은 가장 중요한 특성을 선택하여 정보 이득을 최대화하고, 결정 트리의 깊이가 깊어질수록 데이터의 세부 사항을 고려합니다. Decision Trees는 해석이 쉽고 설명 가능하며, 과적합을 제어하는 방법을 통해 다양한 분류 및 회귀 문제에 적용됩니다.

10

Siamese Network

Siamese Network는 두 개의 동일한 신경망 구조를 공유하며, 입력된 두 데이터 포인트 간의 유사성이나 거리를 학습하는 머신 러닝 모델입니다. 이 모델은 주로 유사성 측정 및 패턴 매칭 작업에 사용됩니다. 예를 들어, 얼굴 인식, 서명 검증, 명함 비교, 음성 인식에서 두 입력 간의 유사성을 판단하거나, 이상치 탐지 작업에서 비정상적인 데이터 포인트를 식별하는 데 활용됩니다. Siamese Network는 특히 쌍(페어) 데이터의 비교와 분류 작업에 유용하며, 저차원 특성 벡터를 학습하여 비교 과정을 간소화합니다.