본문 바로가기
Programming/Python_Etc

Python 머신러닝 라이브러리 비교 : Scikit-learn, TensorFlow, Keras 및 PyTorch

by Wilkyway 2023. 5. 16.
반응형

파이썬은 기계 학습 및 데이터 과학에서 가장 인기 있는 언어 중 하나로 부상했습니다. 다양한 기능을 제공하고 다양한 요구를 충족하는 풍부한 머신 러닝 라이브러리 생태계를 제공합니다....라고 하는데. 한번 시작해볼까 하다가도 라이브러리가 너무 많이 존재해서 뭐가뭔지 잘 모르겠네요. 그래서 그 중 가장 유명한 네 가지 파이썬 머신러닝 라이브러리인를 비교해보고자 합니다. 

1. Scikit-learn:

Scikit-learn은 전통적인 기계 학습 작업에 널리 사용되는 라이브러리입니다. 데이터 전처리, 피쳐 추출, 모델 선택 및 평가를 위한 포괄적인 도구 세트를 제공합니다. Scikit-learn의 주요 기능은 다음과 같습니다:
 <장점>

     -  간단하고 직관적인 API를 제공하므로 다양한 수준의 전문 지식을 가진 사용자가 접근 가능. 탄탄한 학습알고리즘.

     -  광범위한 알고리즘 지원: 분류, 회귀, 클러스터링, 차원 축소 등을 포함한 광범위한 기계 학습 알고리즘을 제공

     -  NumPy 및 Pandas와 같은 인기 있는 Python 라이브러리와 원활하게 통합

   <단점>

     - 딥러닝이나 강화학습은 다루지 않음


2. 텐서플로(TensorFlow)


텐서플로는 구글이 개발한 오픈소스 라이브러리이며 머신러닝 / 딥러닝을 쉽게 사용할 수 있도록 다양한 기능을 제공합니다. 데이터 플로우 그래프(Data Flow Graph)구조를 사용하여 풍부한 표현이 가능한 프레임워크입니다. 

   <장점>

     -  계산구조와 목표함수만 정의되면 자동으로 미분계산을 처리함

     -  텐서보드를 통해 파라미터 변화양상 및 DNN 구조를 알 수 있음

     -  이미지 인식, 반복 신경망 구성, 기계 번역, 필기 숫자 판별 등 각종 신경망 학습에 사용

     - 대규모 예측 모델 구성이 뛰어나 테스트부터 실제 서비스까지 거의 모든 딥러닝 프로젝트에 범용적으로 활용 가능

   <단점>

     -  메모리를 효율적으로 사용하지 못하고 있음

     -  Symbolic Loop 기능이 유연하지 못하며, 함수가 있어도 텐서 타입으로만 적용해야 함

     -  딥러닝 모델을 만드는데 기초 레벨부터 작업이 필요하여 초보자가 사용하기 어려움 

 

3. 케라스(Keras)

케라스는 텐서플로의 문제를 해결하기 위한 보다 단순화된 인터페이스를 제공하기 위해 역시 구글에서 개발된 오픈소스 신경망 라이브러리입니다. 케라스에서 제공하는 시퀀스 모델로 원하는 레이어를 쉽게 쌓을 수도 있고, 더 복잡한 모델을 구성할 땐 케라스 함수 API를 활용하여 구성할 수도 있습니다.

   <장점>

     -  매우 쉽게 모델 구현 가능

   <단점>

     -  디테일한 모델링이 불가하며, 코드만 보고 딥러닝 구조를 이해하기 어려움

     -  오류 발생시 케라스 자체의 문제인지, 백엔드 언어의 문제인지 특정하기 어려움

 


4. PyTorch:


PyTorch는 유연성과 동적 계산 그래프를 강조하며, 페이스북의 AI연구팀이 개발한 오픈소스 머신러닝 라이브러리입니다. 사용 편의성과 개발자 커뮤니티가 많아 큰 인기를 얻었습니다. 
   <장점>

     -  코드를 깔끔하고 직관적으로 작성 가능하며, 학습속도도 텐서플로보다 빠름

     -  메모리에서 연산을 하면서도 신경망 사이즈를 최적으로 바꾸면서 동작시킬 수 있음

     -  Numpy를 대체하면서도 GPU를 이용한 연산이 가능

     -  신속한 시제품 제작과 실험을 지원하기 때문에 연구계에서 선호하는 추세

   <단점>

     -  사용자층이 낮고 학습에 필요한 자료와 예제를 구하기 쉽지 않음 

 

 

전체적인 비교를 하자면...


- 학습 곡선: Scikit-learn, Keras
- 딥 러닝 지원: TensorFlow, Keras, PyTorch가 광범위한 신경망 아키텍처와 사전 훈련된 모델 지원
- 성능: TensorFlow 및 PyTorch는 GPU 가속을 활용하여 대규모 모델을 학습하는 데 매우 효율적. Scikit-learn은 CPU 기반이기 때문에 계산 집약적인 작업에 어려움.
- 생태계 및 커뮤니티: Scikit-learn, TensorFlow, Pytorch?

진짜 머신러닝을 공부하게될지는 잘 모르겠지만, 우선 한다면 Tensorflow가 가장 적당해 보이네요. 시간될 때 주가예측 한번 해보면 좋을 것 같습니다.

 

그럼 이만~~

반응형

댓글