- 평균 중앙값 모드 (평균 값, 중간점 값, 가장 일반적인 값)
- 표준편차 : 값이 얼마나 분산되어 있는지를 나타내는 숫자
- 백분위수 : 통계에서 특정 값이 백분율이 더 낮은 값
- 데이터배포 : 빅데이터 세트를 어떻게 얻는지
- 정규 데이터 분포 : 주어진 값 주위에 값이 집중되는 배열을 만드는 방법
- 산포도 : 데이터 세트에서 각 값이 점으로 표시되는 다이어그램
- 선형회귀 : 변수간의 관계를 찾으려고 할 때 사용
- 다항식 회귀 : 데이터 포인트가 선형(모든 데이터 포인트를 통과하는 직선)에 맞지 않으면 다항식 회귀를 사용
- 다중회귀 : 선형회귀와 비슷하지만 두개 이상의 독립적인 값 즉, 두개 이상의 변수를 기반으로 값을 예측하기 위함
- 규모 : 스케일 기능 (데이터 값이 다르면 비교하기 어려울 수 있음) 이 문제에 대한 해답은 스케일링. 비교하기 쉽게 새로운 값으로 데이터를 확장
- 훈련/테스트 : 모델을 평가 (Train /Test) 훈련 모델은 객체처럼 모델을 생성한다는 의미이고, 모델test는 모델을 테스트한다는 의미이다
- 의사결정 트리 : 이전 경험을 바탕으로 결정을 내리는데 도움이 되는 것이다
- 혼란 매트릭스 : 혼동행열 => 모델에서 어디에 오류가 발생하는지 평가하기 위해서 분류문제에 사용되는 테이블
- 계층적 클러스팅 : 데이터간의 차이점을 측정하여 클러스터를 구축
- 로지스틱 회귀 : 분류 문제를 해결하는 것을 목표로 한다
- 그리드 검색 : 모델을 훈련하는데 사용되는 데이터에 따라 다르다
- 범주형 데이터 : 데이터에서 문자열로 표시되는 범주가 있으면 숫자데이터만 허용하는 경우 해당 범주를 사용하기 어려운데 범주형데이터를 무시하고 모델에서 정보를 제외하는대신 모델에서 사용할 수 있도록 데이터를 변환하는 것
- K-평균 : 데이터 포인트를 클러스팅하기위한 비지도 학습방법
- 부트스트랩 집계 : 의사결정 트리와 같은 학습세트나 과적합돼서 새로운 데이터에 대한 잘못된 예측을 초래할 수 있다 이를 해결하기 위한 방법이다
- 교차 검증 : 모델을 조정할 때 보이지 않는 데이터에 대한 전반적인 모델 성능을 높이는 것을 목표로 한다
- AUC - ROC 곡선 : 정확도를 일반적인지표(ROC) 그 아래 영역인 (AUC)
- K-최근접 이웃 : 분류 또는 회귀 작업에 사용할 수 있는 간단한 지도형 기계
'ML (MachineLearning)' 카테고리의 다른 글
GridSearch 를 이용한 최적의 하이퍼 파라미터 찾기 (0) | 2024.04.17 |
---|---|
딥러닝 : Neural Networks 으로 Classification(분류) 하기 (2) | 2024.04.16 |
하이라키 클러스터링(Hierarchical Clustering) : 계층적 군집 (0) | 2024.04.16 |
K-Means 알고리즘 (0) | 2024.04.16 |
DTree(Decision Tree) 알고리즘으로 새로운 데이터 카테고리 분류하기 (0) | 2024.04.15 |