ML (MachineLearning)

머신러닝 알고리즘 개념 요약

567Rabbit 2024. 4. 16. 16:00

 

- 평균 중앙값 모드 (평균 값, 중간점 값, 가장 일반적인 값)

 

- 표준편차 : 값이 얼마나 분산되어 있는지를 나타내는 숫자

 

- 백분위수 : 통계에서 특정 값이 백분율이 더 낮은 값

 

- 데이터배포 : 빅데이터 세트를 어떻게 얻는지

 

- 정규 데이터 분포 : 주어진 값 주위에 값이 집중되는 배열을 만드는 방법

 

- 산포도 : 데이터 세트에서 각 값이 점으로 표시되는 다이어그램 

 

- 선형회귀 : 변수간의 관계를 찾으려고 할 때 사용 

 

- 다항식 회귀 : 데이터 포인트가 선형(모든 데이터 포인트를 통과하는 직선)에 맞지 않으면 다항식 회귀를 사용

 

- 다중회귀 : 선형회귀와 비슷하지만 두개 이상의 독립적인 값 즉, 두개 이상의 변수를 기반으로 값을 예측하기 위함

 

- 규모 : 스케일 기능 (데이터 값이 다르면 비교하기 어려울 수 있음) 이 문제에 대한 해답은 스케일링. 비교하기 쉽게 새로운 값으로 데이터를 확장

 

- 훈련/테스트 : 모델을 평가 (Train /Test) 훈련 모델은 객체처럼 모델을 생성한다는 의미이고, 모델test는 모델을 테스트한다는 의미이다

 

- 의사결정 트리 : 이전 경험을 바탕으로 결정을 내리는데 도움이 되는 것이다

 

- 혼란 매트릭스 : 혼동행열 => 모델에서 어디에 오류가 발생하는지 평가하기 위해서 분류문제에 사용되는 테이블

 

- 계층적 클러스팅 : 데이터간의 차이점을 측정하여 클러스터를 구축

 

- 로지스틱 회귀 : 분류 문제를 해결하는 것을 목표로 한다

 

- 그리드 검색 : 모델을 훈련하는데 사용되는 데이터에 따라 다르다

 

- 범주형 데이터 : 데이터에서 문자열로 표시되는 범주가 있으면 숫자데이터만 허용하는 경우 해당 범주를 사용하기 어려운데 범주형데이터를 무시하고 모델에서 정보를 제외하는대신 모델에서 사용할 수 있도록 데이터를 변환하는 것

 

- K-평균 : 데이터 포인트를 클러스팅하기위한 비지도 학습방법

 

- 부트스트랩 집계 : 의사결정 트리와 같은 학습세트나 과적합돼서 새로운 데이터에 대한 잘못된 예측을 초래할 수 있다 이를 해결하기 위한 방법이다

 

- 교차 검증 : 모델을 조정할 때 보이지 않는 데이터에 대한 전반적인 모델 성능을 높이는 것을 목표로 한다

 

- AUC - ROC 곡선 : 정확도를 일반적인지표(ROC) 그 아래 영역인 (AUC)

 

- K-최근접 이웃 : 분류 또는 회귀 작업에 사용할 수 있는 간단한 지도형 기계