목록전체 글 (32)
Python 연습장
XAI 는 eXplainable AI 의 약자로, 결과가 짠하고 나오기만 하고 그 과정을 알아내기가 어려운(이걸 Blackbox 라고 표현한다) AI 모델을 해석해주는 알고리즘이라고 한다. 내가 현재까지 이해한 걸로는 feature importance 의 complex 하고 심화된 버전이라고 생각되고 아직까지는 feature importance / coefficient 가 더 직관적이고 단순해서 이해하기 쉽다. XAI 알고리즘 중에서 가장 유명한 건 Shap 이다. SHAP 은 SHapley Additive exPlanation 의 약자로 Game Theory 에 기초한다. Game Theory 는 영화 뷰티풀 마인드에 나온 유명한 아저씨인 존 내쉬가 이 이론을 바탕으로 Nash Equilibrium 을..

clustering 은 target 값이 없는 unsupervised 비지도 학습이고 고객 분류, 데이터 분석, 차원 축소 기법, 이상치 탐지에 사용된다. 고객 분류는 클러스터별로 고객을 나누어서 추천 시스템 구축하는 거, 데이터 분석은 분석 정확도를 높이기 위해서 클러스터별로 나눠서 보는 것이다. 준지도 학습으로 사용하는 방법도 있다. labeled 된 샘플이 적을 경우 동일한 클러스터에 있는 모든 샘플에 label 을 전파시킨다. imbalance dataset 에 사용하기 좋은 방법인 것 같지만 조금 위험해 보이기도 하다. clustering 알고리즘 중에서 가장 유명한 것은 kmeans 와 dbscan 이다. 오늘은 그 중에서 kmeans 에 대해 알아보려고 한다. kmeans 는 centroid..

pycaret (파이캐럿) 은 autoML 중 가장 유명한 라이브러리다. 사실 가장 유명한지는 모르겠지만 예제 같은 데에 가장 많이 나오는 것 같다. autoML 이란 자동으로 머신러닝 모델을 구축해주는건데, 자동까지는 아니고 pycaret 에서 소개하는 구문과 같이 low code ML library 라고 생각하면 된다. 예를 들어 xgb, lightgbm, extratrees 등의 알고리즘을 이것저것 넣어서 성능을 평가해보고 모델별로 성능을 나열해서 그중에 가장 좋은 모델을 선택하고 그 다음 모델 최적화하는 과정을 단 몇 줄로 만들 수 있게 해준다. (지금 말한 과정은 두 줄로 가능) 코드가 복잡해지면 늪에 빠진다. 가장 간결한 코드가 가장 좋은 코드다. (물론 같은 성능을 낸다는 가정 아래) 파이썬..