티스토리

Python 연습장

검색하기

블로그 홈

Python 연습장

sthsb.tistory.com/m

Python 공부 중입니다.

구독자: 0

방명록 방문하기

주요 글 목록

progress bar - tqdm 사용법 tqdm 사용법은 간단하다. for 문 끝에 iterator 나 list 등에 tqdm 만 씌워주면 알아서 프로그래스 바가 생성된다. time.sleep 을 써준 이유는 프로그레스 바가 진행되는 모습을 보여주려고 추가한 거고 실제 사용시에는 없앤다. from tqdm import tqdm import time for i in tqdm(range(10000)): time.sleep(0.01) 위 구문은 아래처럼도 사용할 수 있다. from tqdm import trange for i in trange(10000): time.sleep(0.01) enumerate 사용시에는 tqdm(enumerate ~ 가 아니라 enumerate(tqdm ~ 순서여야 프로그레스 바가 나타난다. from tqdm impor.. 공감수 0 댓글수 0 2023. 1. 23.
colab 에서 google drive mount 하기 #드라이브 마운트 from google.colab import drive drive.mount('/content/drive') import PIL PIL.Image.open('/content/drive/MyDrive/cats.jpeg') 'MyDrive' 빼먹지 말 것! 공감수 0 댓글수 0 2023. 1. 2.
torch 설치 텐서플로우 2.11 부터는 윈도우에서 GPU 지원을 안 한다고 한다. https://www.tensorflow.org/install/pip#windows-native WSL 은 windows subsystem for linux 의 약자로 윈도우에서 리눅스 환경을 사용하는 도구로 윈도우는 아닌 듯. 그래서 tensorflow gpu는 그냥 코랩에서 사용하도록 하고 pc에서는 pytorch로 맞추려고한다. pytorch gpu 개발 환경을 맞추기 위해 아래의 순서로 진행한다. 1) gpu 사양 확인 2) gpu 드라이버 깔기 3) gpu에 맞는 cuda ver 확인 후 설치, cudnn도. 4) torch 설치 5) gpu 인식하는지 확인 torch 설치할 때는 하기 링크 참고. 여기서 cuda 버전 맞는 .. 공감수 0 댓글수 0 2022. 12. 29.
구글 코랩(colab)을 알아보자 python으로 코딩을 해 본 사람이라면 모두가 사용해봤을 colab. 하지만 배포된 강의자료 열어볼 때만 써봤지 제대로 알아보고 사용한 적이 없어서 환경과 사용방법에 대해 정리해두려고 한다. [ colab 을 사용하는 이유 ] - GPU 가 제공된다. - ipynb 파일로 markdown 을 같이 쓸 수 있어서 강의자료로 적합하다. - cloud(google drive) 기반이라 장소에 구애없이 사용가능하다. - cloud 기반이라 공유하기 편하다. [ colab 의 단점 ] - 기본 package 가 아니면 매번 package 를 새로 install 해줘야 한다. - 코드가 길어질 경우, output 이 많을 경우 로딩이 있고 느리다. - jupyter notebook 과 마찬가지로 코드 오류 확인이.. 공감수 0 댓글수 0 2022. 9. 7.
Python 가상환경 만들기 1. 가상환경이 필요한 이유 : 프로젝트별로 다른 버전의 패키지들이 필요하기 때문. Python 으로 코딩하다보면 버전이 안 맞는 경우가 생긴다. 이 패키지를 쓰려면 저 패키지의 버전을 낮춰야하고 근데 나는 다른 프로젝트에서 저 패키지의 높은 버전이 필요하고.. 그렇게 버전을 올리고 내리고 하다가 환경설정이 다 망가지고 파이썬 다 지우고 새로 설치해야하는 경우가 생긴다. (꽤 많이!) 패키지가 아니라 파이썬 버전이 안 맞는 경우도 있다. 대표적으로 python 3.8까지만 지원하는 Pycaret 이 그렇다. 또 gpu 에 따라 tensorflow 설치 시 Python 환경이 달라지는데 이 때도 필요하다. 또 하나 더. pyinstaller 나 cx_freeze 로 exe 파일 만들 때 필요없는 패키지들까.. 공감수 0 댓글수 0 2022. 8. 9.
Global memery usage 확인 방법 in Python Spyder 사용 시에는 global memory 가 얼마나 사용되고 오른쪽 하단에 나와서 메모리 관리를 하면서 코딩할 수 있었는데 Vscode, jupyter 사용 시에는 확인이 어렵다. 그래서 종종 메모리 얼마나 남았는지 종종 확인하려고 코드 기록해둔다. def memory_usage(): import psutil mem = psutil.virtual_memory() print(f"memory using {mem.percent}%, {np.round( mem.available/2**30, 2) }GB left ") memory_usage() 현재는 memory using 69.3%, 2.46GB left 라고 나온다. psutil.vitual_mmeory() 에서 total 메모리도 확인 가능하다. 공감수 0 댓글수 0 2022. 8. 9.
CPU 코어 수 확인 파이썬 코드 CPU 코어수를 확인하고자 검색하면 보통 아래 세가지 코드가 나온다. import multiprocessing multiprocessing.cpu_count() import psutil psutil.cpu_count() import os os.cpu_count() 근데 내 컴퓨터는 쿼드코어인데 자꾸 8 로 나와서 뭔가하고 찾아보니 core 가 아니라 thread 수라고 한다. 하드웨어적인 거는 잘 모르긴한데 예전에 core 는 머리 thread 는 팔이라는 비유를 봤었다. hypterthread 라고 해서 머리는 하나인데 팔은 2개인 처리 장치(인텔꺼는 대부분 그렇단다)로 보면 될 것 같다. import psutil psutil.cpu_count(logical = False) 이렇게 입력하면 진짜 cor.. 공감수 0 댓글수 0 2022. 8. 9.
애드고시 통과 후기 이렇게 오래걸릴 거라고는 전혀 생각도 못했고 지금 이 시점에 될 거란 것도 생각도 못했다. 내가 처음 아래 글을 쓰면서 한 달 뒤 애드고시 합격 후기를 쓰기를 바란다고 적었는데, 어느덧 6개월 시간이 흘렀다. https://sthsb.tistory.com/1 수익형 블로그 운영 방법 새해 목표는 블로그로 용돈 벌기로 정했다. 그동안 계속 도전해보고 싶었는데 바쁘다, 주제를 못 정한다, 글재주가 없다, 생각보다 얼마 벌지 못할 거다 라는 핑계로 계속 미뤄왔었다. 이번엔 애 sthsb.tistory.com 나름 포스팅을 꼬박꼬박하려고 했는데 번번히 떨어졌고, 내용에 문제가 있나 싶어서 더 꽉찬 내용으로 채우려다보니 포스팅에 대한 부담이 커지고, 그러니까 더욱 포스팅할 맛은 안나고, 그러다가 최근 3개월간은 .. 공감수 0 댓글수 0 2022. 6. 21.
다시 jupyter 로... 1. 다시 Jupyter 으로.. 우선 내가 지금까지 주로 사용하고 있는 Spyder 의 장점! 1) Variables 를 확인하기 매우 편하다 - Variable Explorer 에서 list, array, dataframe 등을 클릭해서 한번에 보기 좋다. 너무 크지만 않으면 금방 뜬다. 2) 이미지를 복사해서 붙여넣기 편하다. - 캡쳐하거나 save 할 필요없이 Plot Tab에서 복사하면 엑셀이든 어디든 바로 붙여넣기 좋다. 3) 한 번에 긴 코드를 짜기 좋다 (이건 jupyter notebook 제외한 다른 ide 공통) 단점! Variables 를 보는데 에러가 자주 발생한다!! 가장 큰 강점이 Variables 보는 건데 이걸 못보게되니까 정말 쓰기 싫어지더라. 그리고 가끔 변수나 이미지가 .. 공감수 0 댓글수 0 2022. 6. 16.
shap 이론 XAI 는 eXplainable AI 의 약자로, 결과가 짠하고 나오기만 하고 그 과정을 알아내기가 어려운(이걸 Blackbox 라고 표현한다) AI 모델을 해석해주는 알고리즘이라고 한다. 내가 현재까지 이해한 걸로는 feature importance 의 complex 하고 심화된 버전이라고 생각되고 아직까지는 feature importance / coefficient 가 더 직관적이고 단순해서 이해하기 쉽다. XAI 알고리즘 중에서 가장 유명한 건 Shap 이다. SHAP 은 SHapley Additive exPlanation 의 약자로 Game Theory 에 기초한다. Game Theory 는 영화 뷰티풀 마인드에 나온 유명한 아저씨인 존 내쉬가 이 이론을 바탕으로 Nash Equilibrium 을.. 공감수 1 댓글수 0 2022. 3. 29.
clustering - kmeans clustering 은 target 값이 없는 unsupervised 비지도 학습이고 고객 분류, 데이터 분석, 차원 축소 기법, 이상치 탐지에 사용된다. 고객 분류는 클러스터별로 고객을 나누어서 추천 시스템 구축하는 거, 데이터 분석은 분석 정확도를 높이기 위해서 클러스터별로 나눠서 보는 것이다. 준지도 학습으로 사용하는 방법도 있다. labeled 된 샘플이 적을 경우 동일한 클러스터에 있는 모든 샘플에 label 을 전파시킨다. imbalance dataset 에 사용하기 좋은 방법인 것 같지만 조금 위험해 보이기도 하다. clustering 알고리즘 중에서 가장 유명한 것은 kmeans 와 dbscan 이다. 오늘은 그 중에서 kmeans 에 대해 알아보려고 한다. kmeans 는 centroid.. 공감수 0 댓글수 0 2022. 3. 21.
pycaret 개요 & classification pycaret (파이캐럿) 은 autoML 중 가장 유명한 라이브러리다. 사실 가장 유명한지는 모르겠지만 예제 같은 데에 가장 많이 나오는 것 같다. autoML 이란 자동으로 머신러닝 모델을 구축해주는건데, 자동까지는 아니고 pycaret 에서 소개하는 구문과 같이 low code ML library 라고 생각하면 된다. 예를 들어 xgb, lightgbm, extratrees 등의 알고리즘을 이것저것 넣어서 성능을 평가해보고 모델별로 성능을 나열해서 그중에 가장 좋은 모델을 선택하고 그 다음 모델 최적화하는 과정을 단 몇 줄로 만들 수 있게 해준다. (지금 말한 과정은 두 줄로 가능) 코드가 복잡해지면 늪에 빠진다. 가장 간결한 코드가 가장 좋은 코드다. (물론 같은 성능을 낸다는 가정 아래) 파이썬.. 공감수 0 댓글수 0 2022. 3. 20.
shap 의 colormap 으로 colorbar 그리기 shap package 에서 사용하는 기본 colormap이 세련된 색감이라 가져와서 사용하고 싶었다. matplotlib 이나 seaborn 팔레트에서 아무리 뒤져도 이 팔레트는 안나와서 shap 을 뒤져보기로 했다. # shap 그래프 이미지. colorbar 만 봐도 세련됐다. 먼저 palette 를 불러준다. from shap.plots.colors._colors import red_blue, red_blue_circle, red_blue_no_bounds 확인해보면 colorbar 가 horizontal 하게 뜬다. red_blue 와 red_blue_no_bounds 는 색gradation 이 똑같고 under / bad / over 만 다르다. colormap 에서 set_bad, set_u.. 공감수 0 댓글수 0 2022. 3. 14.
jupyter 설치 사용 내가 경험해본 바로는 Spyder 가 가장 편한 IDE 다. 하지만 대부분의 package 들은 jupyter notebook 에 맞춰서 만들고 가이드도 jupyter 에 맞춰져 있기 때문에 특히 시각화를 요하는 최근에 개발된 package 들을 사용할 때에는 결국엔 jupyter 를 사용할 수밖에 없다. [ 설치 ] 먼저 command/terminal 창에서 pip install jupyter 라고 입력해준다. 다음에 원하는 경로로 들어간다. [ 실행 ] 윈도우의 경우에는 이렇게 한다. d: # 드라이브 변경 필요 시, c드라이브에서 d드라이브로 변경 cd Non_Documents # 폴더1 들어감, 이때 cd N + [tab] 만 눌러도 Non_Documents 가 바로 뜬다. N 으로 시작하는 폴더.. 공감수 0 댓글수 0 2022. 3. 13.
파이썬에서 샘플dataset을 가져오는 4가지 방법 파이썬에서 샘플 데이터를 다운받는 방법은 다양하다. 기본적으로 머신러닝을 하는 사람들은 모두 사이킷런 라이브러리를 사용하기 때문에 나는 사이킷런에서 데이터 로드하는 걸 선호했는데, 데이터셋이 한정적이라서 아쉬웠다. 그래서 좀 더 다양한 샘플데이터를 확인하고자 다른 방법을 찾아봤고, 여기에 4가지 샘플데이터 로드 방법을 소개하고자 한다. 1. sklearn.datasets 먼저 사이킷런에서 데이터를 불러오는 방법이다. import pandas as pd from sklearn.datasets import load_boston data_func = load_boston() df = pd.DataFrame(data = data_func.data, columns = data_func.feature_names) .. 공감수 0 댓글수 0 2022. 2. 22.
함수 return 값이 많을 경우 이런 함수가 있다고 가정해보자 def func(x,y) : a = x+y b = x-y c = x*y d = x/y e = x**y f = x//y return a,b,c,d,e,f 이 함수는 무려 return 값이 6개다. return 값을 받으려면 6개 변수를 일일히 입력해줘야 한다. r1, r2, r3, r4, r5, r6 = func(3,1) 좀 더 심플하게 여러 변수를 받고 필요할때만 불러내서 사용할 수 있는 방법이 있다. 첫번째, collections namedtuple 을 활용하면 된다. from collections import namedtuple def func(x,y) : a = x+y b = x-y c = x*y d = x/y e = x**y f = x//y collec = named.. 공감수 0 댓글수 0 2022. 2. 15.
명상 앱 리뷰 (Calm/Meditopia/마음의달인/마보/코끼리) 명상이 좋다는 건 익히 들어 알고 있었지만 어떻게 하는지 잘 모르겠어서 쉽게 해 볼 생각을 못했는데, 최근에 명상을 하면 집중력과 업무 효율이 향상된다는 얘기를 듣고서 꼭 해봐야겠다는 생각이 들었다. 아마 컴퓨터나 핸드폰도 램을 한번씩 정리해주면 빠릿해지듯이 우리 뇌도 명상을 통해 램청소의 과정을 거치는 것이 아닐까 하는데 항상 머릿속이 복잡한 현대인들에게 꼭 필요한 게 아닐까 한다. 명상을 시작해보려고 방법을 알아보던 와중에 명상 관련한 좋은 앱이 많다고 해서 유명한 몇가지 앱을 체험해봤다. 사실 유튜브에도 많은 명상 관련 영상이 있는데 앱을 굳이 사용하려고 하는 이유는 유튜브를 통해 명상을 하게 되면 잡생각이 되려 많아지는 느낌을 받았기 때문이다. 유튜브에 들어가서 검색하고, 영상을 틀고, 영상을 마.. 공감수 1 댓글수 0 2022. 1. 24.
분류(classification)의 평가지표와 confusion matrix 1. confusion matrix 의 개념 분류의 평가지표를 살펴보려면 가장 먼저 알아둬야하는 것이 바로 confusion matrix 다. 이 것은 분류 모델이 제대로 예측을 진행했는지 파악하기 위한 것인데, 실제 값과 예측 값의 결과를 Positive와 Negative로 나누어 표로 나타낸다. 보통 왼쪽이 실제값, 위가 예측값으로 table 을 표현하고 그 순서는 각각 True False 순으로 나타내는데, 아닌 경우도 있어서 무작정 검색을 하다보면 헷갈리는 경우가 있다. 나는 sklearn metrics tool 에서 제공하는 표의 순서에 맞춰서 표현하려고 한다. 실제와 예측이 뒤바뀐 table 이더라도 어느 한 기준을 맞춰놓고 기억을 해둬야 다음에 쉽게 생각낼 수 있기 때문이다. (간단해보이지만.. 공감수 0 댓글수 0 2022. 1. 21.
category_encoders (1) Category Encoders category data 를 encoding 하는 함수를 모두 모아 놓은 모듈인 category_encoders 는 아래와 같이 설치한다. pip install category_encoders 보통은 ce 로 받아서 이렇게 import 한다. import category_encoders as ce 그리고 아래처럼 원하는 Encoder 를 불러주면 된다. encoder = ce.BackwardDifferenceEncoder(cols=[...]) encoder = ce.BaseNEncoder(cols=[...]) encoder = ce.BinaryEncoder(cols=[...]) encoder = ce.CatBoostEncoder(cols=[...]) encoder = ce.. 공감수 0 댓글수 0 2022. 1. 20.
파이썬 패키지 개념과 pip 간단 명령어 모음 내가 그동안 코딩하면서 헷갈렸던 개념과 자주 까먹어서 맨날 구글링해서 입력하는 명령어들을 모아놓았다. 1. 모듈과 패키지의 개념 def func():으로 시작하는 함수, 그리고 class classname:으로 시작하는 class, 이것들을 열심히 적어서 하나의. py 파일로 만들면 그게 모듈이 되고, 이 모듈들을 모아 놓은 게 package이다. package 보다 더 큰 개념(즉, package 들을 모아놓은)이 library인데 package 랑 같이 혼용해서 써도 무방하다. (pandas library = pandas package) 정리하면 이렇게 된다. [ library >= package > module > class > func ] 예를 들어 sklearn library 안에 preproc.. 공감수 0 댓글수 0 2022. 1. 17.
categorical data encoding 방법 기본적으로 encoder 들은 fit_transform() 을 통해서 fitting 과 변환을 바로 하고, 모델링하고 나서 결과값은 inverse transform() 으로 변환해주는 공통적인 함수를 갖는다. 물론 fit 한다음에 transform 을 할 수도 있긴한데 그 중간 절차에서 따로 확인할 게 없어서 한번에 피팅과 변환을 같이 해줘도 된다. 1. sklearn - One Hot Encoding 가장 보편적으로 사용하는 방법이지만 feature 의 수가 너무 늘어나게 되는 단점이 있다. 방식은 [a,b,c] 라는 데이터를 [100,010,001] 로 변환하는 거다. A 라는 한개의 feature 안에 a,b,c 라는 3가지 변수가 있을 때 변수의 숫자에 따라 feature 는 [A-a, A-b, .. 공감수 0 댓글수 0 2022. 1. 14.
Python Visualization(5) - seaborn seaborn은 matplotlib보다 더 예쁘고 간편하게 그래프를 그릴 수 있어서 많은 사람들이 선호하는 시각화 툴이다. 모든 사람들이 pandas를 pd로 불러오는 것처럼 seaborn도 sns로 불러온다. 왜 sns 인지 궁금해서 알아보니까 The West Wing이라는 드라마에 나왔던 캐릭터 이름이 Samuel Norman Seaborn 이래서 앞글자 따서 sns로 불러온다고 한다. 하하.. seaborn에서는 sklearn처럼 dataset을 따로 불러올 수 있다. 이번 포스팅에서는 sns의 데이터셋으로 그래프를 그려볼 것이다. seaborn에서 dataset 불러오기 import seaborn as sns df = sns.load_dataset("penguins") penguins datase.. 공감수 0 댓글수 0 2022. 1. 10.
pipeline 그동안 '머신러닝 학습을 할 때 pipeline을 쓰면 간단해진다'라고 들어만 봤지 pipeline이 정확히 어떤 때에 쓰이는 건지 잘 몰라서 안 쓰고 있었다. 안 쓰더라도 남이 짠 코드는 이해를 해야 하니까 오늘 한 번 알아보도록 하겠다. pipeline이란 데이터를 일련의 순서대로 처리하고 분석하는 단계를 의미한다. 데이터 분석 머신러닝의 기본 절차로 null값 처리 같은 Data Cleansing, Scaling과 같은 데이터 전처리, 주성분 분석(PCA), 머신러닝 모델 적용 등의 절차가 있는데 이 모든 과정들을 하나의 pipeline이라고 할 수 있다. sklearn의 pipeline은 이 절차를 깔끔하게 코드한 줄로 나타내 줄 수 있는 모듈이며 이를 한 번 적용해보도록 하겠다. 데이터 불러오기.. 공감수 0 댓글수 0 2022. 1. 9.
Python Visualization(4) - subplot 만약 그려야할 그래프의 개수가 정해져 있는 게 아니라 그때 그때 데이터셋에 따라 달라진다면 subplot을 어떻게 그려야할까? k값에 따라 달라지는 subplot layout 을 그리는 함수를 만들어보자. 먼저 import matplotlib.pyplot as plt 로 먼저 matplotlib 을 import 해준다. 함수에 들어가야할 인수는 그려야할 데이터가 들어있는 dataframe df와 행의 개수인 col_num 이렇게 두가지다. k값(그려야할 subplot 의 total 숫자)은 df의 column 개수로 정의한다. col_num 은 사용자 지정 숫자로 임의로 입력해줘야 한다. 다음 def make_subplot_layout(df, col_num) 이라고 함수를 선언해주고 함수에 들어갈 내용을.. 공감수 2 댓글수 1 2022. 1. 6.
Python Visualization(3) - matplotlib의 그래프 종류 지난 포스팅에서 matplotlib 의 line 그래프와 scatter 그래프에 대해서만 살펴봤는데, matplotlib으로 그 외에 다양한 그래프들을 그릴 수 있어서 살펴보려고 한다. 먼저, 앞선 포스팅에서와 같이 데이터테이블을 불러온다. import pandas as pd from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(data = iris.data, columns = iris.feature_names) df['target'] = iris.target_names[iris.target] print(df) pyplot 에서 xlabel이 있어야 데이터를 그릴 수 있는 그래프는 scatter, bar, stem, ste.. 공감수 0 댓글수 0 2022. 1. 4.
Python Visualization(2) - matplotlib 기본 Python Visualization Library 중 기본은 단연 matplotlib이다. matplotlib으로 시각화하는 법을 간단히 소개해보겠다. 모듈 설치 및 import 먼저 anaconda prompt에서 pip install matplotlib 이라고 입력 후 설치 완료해준다. (또는 jupyter notebook 에서는 !pip install matplotlib) 그리고 아래와 같이 모듈을 import 해준다. import matplotlib.pyplot as plt matplotlib 으로 그래프 그리기 기본 간단하게 그리는 예시는 아래와 같다. 먼저 지난번처럼 iris dataset을 불러오고 그림 그려줄 dataframe을 생성한다. import pandas as pd from sk.. 공감수 0 댓글수 0 2022. 1. 3.
딥러닝 시계열 알고리즘 정리 머신러닝을 이용한 텍스트 처리, 시계열 Trend 예측 시 사용하는 시계열 알고리즘 종류를 정리해보려고 한다. 머신러닝 및 딥러닝 입문으로 가장 접근하기 좋은게 주가/비트코인 시계열 예측 아니겠어?? SimpleRNN (Recurrent Neural Networks) from tensorflow.keras.models import Sequential from tensorflow.keras.layers import SimpleRNN, Dense model = Sequential() model.add( SimpleRNN(20, input_shape=(n_timestep,n_features), return_sequences = False) model.add( Dense(1) ) LSTM (Long Short .. 공감수 0 댓글수 0 2022. 1. 1.
제 28회 ADsP 합격 후기 (21년 4월 합격후기) 민트책으로 유명한 데이터 에듀의 ' ADsP 데이터 분석 준전문가 2021' 책만으로 공부했다. 4주 동안 공부했고 평일은 1~2시간, 주말은 토요일만 3시간 공부했다. 결과는 84점 이어서... 합격 커트라인인 60점을 훌쩍 넘어버려서 투자한 시간이 좀 아까웠다. 그냥 주말에만 몰아서 공부했어도 합격했을 듯하다. 나는 비전공자지만 이과 출신이어서 확률통계에 대한 기본 개념은 있었다. 근데 확통 부분이 그렇게 많은 파트를 차지하는 게 아니라 시험 대비에 큰 도움이 되진 않은 듯하다. 내가 정말 쥐약인 암기 위주의 학습이 필요해서 그 부분이 많이 어려웠다. 특히 1과목 2과목은 매번 틀려서 그냥 문제 자체를 외워버렸던 것 같다. 3과목에는 R도 나오는데 처음엔 R 을 따로 배워야 .. 공감수 0 댓글수 0 2021. 12. 31.
Python Visualization(1) - Pandas 내장 Plot 함수 데이터를 탐색할 때, 그리고 데이터 가공 후 모델링 후에 결과를 효과적으로 표현할 때에는 시각화가 중요하다. 요즘에는 tableau를 통한 시각화를 많이 사용하고 있다는데, 파이썬에서 데이터 굴리는 게 더 익숙한 나로서는 파이썬에서 바로 편집하는 게 더 수월하다. Python에서는 기본적으로 matplotlib과 seaborn을 통해 시각화 기능을 구현하고 pandas에서 갖고 있는 기본 내장 함수도 있다. 오늘은 별도의 import 없이 바로 사용할 수 있는 Pandas 내장 plot 함수에 대해 알아보려고 한다. 먼저 데이터셋을 불러오자. 앞에 포스팅했던 sklearn 내장 데이터셋을 활용했다. import pandas as pd from sklearn.datasets import load_iris .. 공감수 0 댓글수 0 2021. 12. 30.
사이킷런 데이터셋 (sklearn.datasets) 코딩 연습해볼 때 적절한 csv파일 데이터셋이 있는 게 가장 좋겠지만 sklearn에 기본 내장되어있는 데이터셋도 있으니 연습할 때는 sklearn에서 불러와서 쓰는 것도 좋을 것 같다. sklearn dataset의 기본 구조 먼저, sklearn에서 데이터셋을 가지고 있는 함수를 불러와야 한다 : from sklearn.datasets import load_iris load_iris() 함수는 우리가 사용하고자 하는 dataframe 형태가 아닌, key와 value를 가진 사전식으로 구성되어 있어서 데이터와 칼럼을 불러와서 따로 만들어줘야 한다. from sklearn.datasets import load_iris iris = load_iris() print(iris.keys()) # 출력 : di.. 공감수 0 댓글수 0 2021. 12. 29.

문의안내

티스토리
로그인
고객센터

티스토리는 카카오에서 사랑을 담아 만듭니다.