머신러닝 알고리즘 개념 요약

ML (MachineLearning)

567Rabbit 2024. 4. 16. 16:00

- 평균 중앙값 모드 (평균 값, 중간점 값, 가장 일반적인 값)

- 표준편차 : 값이 얼마나 분산되어 있는지를 나타내는 숫자

- 백분위수 : 통계에서 특정 값이 백분율이 더 낮은 값

- 데이터배포 : 빅데이터 세트를 어떻게 얻는지

- 정규 데이터 분포 : 주어진 값 주위에 값이 집중되는 배열을 만드는 방법

- 산포도 : 데이터 세트에서 각 값이 점으로 표시되는 다이어그램

- 선형회귀 : 변수간의 관계를 찾으려고 할 때 사용

- 다항식 회귀 : 데이터 포인트가 선형(모든 데이터 포인트를 통과하는 직선)에 맞지 않으면 다항식 회귀를 사용

- 다중회귀 : 선형회귀와 비슷하지만 두개 이상의 독립적인 값 즉, 두개 이상의 변수를 기반으로 값을 예측하기 위함

- 규모 : 스케일 기능 (데이터 값이 다르면 비교하기 어려울 수 있음) 이 문제에 대한 해답은 스케일링. 비교하기 쉽게 새로운 값으로 데이터를 확장

- 훈련/테스트 : 모델을 평가 (Train /Test) 훈련 모델은 객체처럼 모델을 생성한다는 의미이고, 모델test는 모델을 테스트한다는 의미이다

- 의사결정 트리 : 이전 경험을 바탕으로 결정을 내리는데 도움이 되는 것이다

- 혼란 매트릭스 : 혼동행열 => 모델에서 어디에 오류가 발생하는지 평가하기 위해서 분류문제에 사용되는 테이블

- 계층적 클러스팅 : 데이터간의 차이점을 측정하여 클러스터를 구축

- 로지스틱 회귀 : 분류 문제를 해결하는 것을 목표로 한다

- 그리드 검색 : 모델을 훈련하는데 사용되는 데이터에 따라 다르다

- 범주형 데이터 : 데이터에서 문자열로 표시되는 범주가 있으면 숫자데이터만 허용하는 경우 해당 범주를 사용하기 어려운데 범주형데이터를 무시하고 모델에서 정보를 제외하는대신 모델에서 사용할 수 있도록 데이터를 변환하는 것

- K-평균 : 데이터 포인트를 클러스팅하기위한 비지도 학습방법

- 부트스트랩 집계 : 의사결정 트리와 같은 학습세트나 과적합돼서 새로운 데이터에 대한 잘못된 예측을 초래할 수 있다 이를 해결하기 위한 방법이다

- 교차 검증 : 모델을 조정할 때 보이지 않는 데이터에 대한 전반적인 모델 성능을 높이는 것을 목표로 한다

- AUC - ROC 곡선 : 정확도를 일반적인지표(ROC) 그 아래 영역인 (AUC)

- K-최근접 이웃 : 분류 또는 회귀 작업에 사용할 수 있는 간단한 지도형 기계

GridSearch 를 이용한 최적의 하이퍼 파라미터 찾기 (0)	2024.04.17
딥러닝 : Neural Networks 으로 Classification(분류) 하기 (2)	2024.04.16
하이라키 클러스터링(Hierarchical Clustering) : 계층적 군집 (0)	2024.04.16
K-Means 알고리즘 (0)	2024.04.16
DTree(Decision Tree) 알고리즘으로 새로운 데이터 카테고리 분류하기 (0)	2024.04.15

Rabbit's efficient coding 🖥️🐇 & 금융