목록전체 글 (32)
Python 연습장

seaborn은 matplotlib보다 더 예쁘고 간편하게 그래프를 그릴 수 있어서 많은 사람들이 선호하는 시각화 툴이다. 모든 사람들이 pandas를 pd로 불러오는 것처럼 seaborn도 sns로 불러온다. 왜 sns 인지 궁금해서 알아보니까 The West Wing이라는 드라마에 나왔던 캐릭터 이름이 Samuel Norman Seaborn 이래서 앞글자 따서 sns로 불러온다고 한다. 하하.. seaborn에서는 sklearn처럼 dataset을 따로 불러올 수 있다. 이번 포스팅에서는 sns의 데이터셋으로 그래프를 그려볼 것이다. seaborn에서 dataset 불러오기 import seaborn as sns df = sns.load_dataset("penguins") penguins datase..
그동안 '머신러닝 학습을 할 때 pipeline을 쓰면 간단해진다'라고 들어만 봤지 pipeline이 정확히 어떤 때에 쓰이는 건지 잘 몰라서 안 쓰고 있었다. 안 쓰더라도 남이 짠 코드는 이해를 해야 하니까 오늘 한 번 알아보도록 하겠다. pipeline이란 데이터를 일련의 순서대로 처리하고 분석하는 단계를 의미한다. 데이터 분석 머신러닝의 기본 절차로 null값 처리 같은 Data Cleansing, Scaling과 같은 데이터 전처리, 주성분 분석(PCA), 머신러닝 모델 적용 등의 절차가 있는데 이 모든 과정들을 하나의 pipeline이라고 할 수 있다. sklearn의 pipeline은 이 절차를 깔끔하게 코드한 줄로 나타내 줄 수 있는 모듈이며 이를 한 번 적용해보도록 하겠다. 데이터 불러오기..

만약 그려야할 그래프의 개수가 정해져 있는 게 아니라 그때 그때 데이터셋에 따라 달라진다면 subplot을 어떻게 그려야할까? k값에 따라 달라지는 subplot layout 을 그리는 함수를 만들어보자. 먼저 import matplotlib.pyplot as plt 로 먼저 matplotlib 을 import 해준다. 함수에 들어가야할 인수는 그려야할 데이터가 들어있는 dataframe df와 행의 개수인 col_num 이렇게 두가지다. k값(그려야할 subplot 의 total 숫자)은 df의 column 개수로 정의한다. col_num 은 사용자 지정 숫자로 임의로 입력해줘야 한다. 다음 def make_subplot_layout(df, col_num) 이라고 함수를 선언해주고 함수에 들어갈 내용을..