목록코딩 (28)
Python 연습장
그동안 '머신러닝 학습을 할 때 pipeline을 쓰면 간단해진다'라고 들어만 봤지 pipeline이 정확히 어떤 때에 쓰이는 건지 잘 몰라서 안 쓰고 있었다. 안 쓰더라도 남이 짠 코드는 이해를 해야 하니까 오늘 한 번 알아보도록 하겠다. pipeline이란 데이터를 일련의 순서대로 처리하고 분석하는 단계를 의미한다. 데이터 분석 머신러닝의 기본 절차로 null값 처리 같은 Data Cleansing, Scaling과 같은 데이터 전처리, 주성분 분석(PCA), 머신러닝 모델 적용 등의 절차가 있는데 이 모든 과정들을 하나의 pipeline이라고 할 수 있다. sklearn의 pipeline은 이 절차를 깔끔하게 코드한 줄로 나타내 줄 수 있는 모듈이며 이를 한 번 적용해보도록 하겠다. 데이터 불러오기..

만약 그려야할 그래프의 개수가 정해져 있는 게 아니라 그때 그때 데이터셋에 따라 달라진다면 subplot을 어떻게 그려야할까? k값에 따라 달라지는 subplot layout 을 그리는 함수를 만들어보자. 먼저 import matplotlib.pyplot as plt 로 먼저 matplotlib 을 import 해준다. 함수에 들어가야할 인수는 그려야할 데이터가 들어있는 dataframe df와 행의 개수인 col_num 이렇게 두가지다. k값(그려야할 subplot 의 total 숫자)은 df의 column 개수로 정의한다. col_num 은 사용자 지정 숫자로 임의로 입력해줘야 한다. 다음 def make_subplot_layout(df, col_num) 이라고 함수를 선언해주고 함수에 들어갈 내용을..

지난 포스팅에서 matplotlib 의 line 그래프와 scatter 그래프에 대해서만 살펴봤는데, matplotlib으로 그 외에 다양한 그래프들을 그릴 수 있어서 살펴보려고 한다. 먼저, 앞선 포스팅에서와 같이 데이터테이블을 불러온다. import pandas as pd from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(data = iris.data, columns = iris.feature_names) df['target'] = iris.target_names[iris.target] print(df) pyplot 에서 xlabel이 있어야 데이터를 그릴 수 있는 그래프는 scatter, bar, stem, ste..

Python Visualization Library 중 기본은 단연 matplotlib이다. matplotlib으로 시각화하는 법을 간단히 소개해보겠다. 모듈 설치 및 import 먼저 anaconda prompt에서 pip install matplotlib 이라고 입력 후 설치 완료해준다. (또는 jupyter notebook 에서는 !pip install matplotlib) 그리고 아래와 같이 모듈을 import 해준다. import matplotlib.pyplot as plt matplotlib 으로 그래프 그리기 기본 간단하게 그리는 예시는 아래와 같다. 먼저 지난번처럼 iris dataset을 불러오고 그림 그려줄 dataframe을 생성한다. import pandas as pd from sk..
머신러닝을 이용한 텍스트 처리, 시계열 Trend 예측 시 사용하는 시계열 알고리즘 종류를 정리해보려고 한다. 머신러닝 및 딥러닝 입문으로 가장 접근하기 좋은게 주가/비트코인 시계열 예측 아니겠어?? SimpleRNN (Recurrent Neural Networks) from tensorflow.keras.models import Sequential from tensorflow.keras.layers import SimpleRNN, Dense model = Sequential() model.add( SimpleRNN(20, input_shape=(n_timestep,n_features), return_sequences = False) model.add( Dense(1) ) LSTM (Long Short ..

데이터를 탐색할 때, 그리고 데이터 가공 후 모델링 후에 결과를 효과적으로 표현할 때에는 시각화가 중요하다. 요즘에는 tableau를 통한 시각화를 많이 사용하고 있다는데, 파이썬에서 데이터 굴리는 게 더 익숙한 나로서는 파이썬에서 바로 편집하는 게 더 수월하다. Python에서는 기본적으로 matplotlib과 seaborn을 통해 시각화 기능을 구현하고 pandas에서 갖고 있는 기본 내장 함수도 있다. 오늘은 별도의 import 없이 바로 사용할 수 있는 Pandas 내장 plot 함수에 대해 알아보려고 한다. 먼저 데이터셋을 불러오자. 앞에 포스팅했던 sklearn 내장 데이터셋을 활용했다. import pandas as pd from sklearn.datasets import load_iris ..
코딩 연습해볼 때 적절한 csv파일 데이터셋이 있는 게 가장 좋겠지만 sklearn에 기본 내장되어있는 데이터셋도 있으니 연습할 때는 sklearn에서 불러와서 쓰는 것도 좋을 것 같다. sklearn dataset의 기본 구조 먼저, sklearn에서 데이터셋을 가지고 있는 함수를 불러와야 한다 : from sklearn.datasets import load_iris load_iris() 함수는 우리가 사용하고자 하는 dataframe 형태가 아닌, key와 value를 가진 사전식으로 구성되어 있어서 데이터와 칼럼을 불러와서 따로 만들어줘야 한다. from sklearn.datasets import load_iris iris = load_iris() print(iris.keys()) # 출력 : di..

그동안 Window 로만 해보다가 Mac에서도 Python을 해보려고 한다. IDE는 Variable Explorer 가 편해서 Spyder를 주로 쓰고, 아주 가끔 주피터 노트북도 사용하고 있다. 주피터는 구글 코랩과 연동해서 쓰기 좋다는 장점이 있는 반면 무겁고 느려서 비선호한다. 그렇지만 배운 내용 정리하기엔 가장 좋은 ide인 것 같다. 파이참과 vscode도 조금 써보긴 했지만 spyder Variable Explorer의 편리함은 이길 수 없었다. 아나콘다를 설치하면 스파이더가 같이 딸려오긴 하지만 아나콘다는 너무 무겁고 스파이더 실행하려면 아나콘다 항상 통해서 들어가야 해서 (물론 따로 설치할 수는 있지만 그럴꺼면 뭐하러 무거운 아나콘다를..) 미니콘다 + 스파이더 조합으로 설치했다. Hom..