전체 글

0. Clustering 클러스터링은 주어진 데이터(X)와 유사한 데이터들을 묶어주는 방법이다. 클러스터링은 비지도학습이기 때문에 y가 존재하지 않는다. 클러스터링에서 가장 중요한 것은 feature vector과 similarity이다. Clustering(군집화) 알고리즘으로 K-means가 있다. k-means는 각 클러스터와의 거리 차이 분산을 최소화하여 데이터를 분류하는 것을 목적으로 한다. 우선 k-means의 방법을 간단하게 확인해 보자. 1. K-means 1-1. 군집의 개수(K) 설정 우선 군집의 개수 K를 설정하는 것부터 시작된다. 사실 이점은 어찌 보면 k-means의 단점이라고 볼 수 있다. 사용자가 임의로 정해줘야 하는 파라미터이기 때문이다. 하지만 추후에 이런 K를 정하는 다른..
· ML & DL/NLP
오늘은 자연어처리를 진행할 때 자주 참고하게 될 hugging face 관련한 실습을 진행하였다. 우선 지금까지 배운내용이 사용되진 않지만 전체적인 flow가 어떻게 되는지 참고할 수 있다. 1. Huggingface HuggingFace란 자연어처리 모델에서 사용되는 Transformer 기반의 다양한 모델들과 학습 데이터셋들을 모아놓은 플랫폼이다. 또한 pretrained 모델들도 쉽게 사용할 수 있기 때문에 편리하다. GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. 🤗 Transformers: State-of-the-art Machine..
· 알쓸신잡
1. CUDA 설치 아래 링크에서 본인의 그래픽 카드에 맞는 NVIDIA 드라이버 다운로드.(나: RTX 3060TI) Download the latest official NVIDIA drivers Download the latest official NVIDIA drivers www.nvidia.com 2. CUDA Toolkit 설치 아래 링크에서 하단의 GPU 부분에서 자신이 설치하고자 하는 tensorflow-gpu, 파이썬 버전에 맞는 cuDNN과 CUDA 버전을 확인. (나: cuDNN 8.1 & CUDA 11.2) --> (23.11.27 수정) (나: cuDNN 8.9.5 & CUDA 11.7) --> (23.11.27 수정) 아래 링크에서 공식지원버전은 최대가 11.2라고 되어있지만, 상위..
· ML & DL/NLP
자연어 처리 용어`자연어`: 프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어.`자연어처리`: 컴퓨터가 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야-> 인간과 기계간의 커뮤니케이션을 개선하는 것이 목표(정보추출, 의미 파악, 자연어 소통)`자연어처리 활용`: 문서분류, 스팸처리, 검색어 추천, 음성인식, 질의응답, 번역 등 다양한 분야에서 사용됨. `자연어처리(NLP-Natural Language Processing)` = `자연어이해(NLU-Natural Language Understand)`+`자연어생성(NLG- Natural Language Generation)` `NLU`: 기계가 자연어의 의미(감정, 의도, 실제 의미, ..
머신러닝 `머신러닝`: 컴퓨터가 주어진 입력값 X와 결과값 Y 사이의 관계를 찾아내는, 모델링하는 것을 의미한다. Supervised learning(지도학습) : 입력데이터 x와 정답데이터 y가 학습에 함께 사용되는 방법. -> classification: 주어진 데이터 x를 몇 가지 종류로 나누는 방법 -> regression: 주어진 데이터 x와 그에 대한 정답값 y사이의 관계를 찾는 방법. Unsupervised learning(비지도 학습) : 입력데이터만 학습에 사용되는 방법론(정답 데이터 y가 주어지지 않음) -> clustering: 주어진 데이터 x를 몇 가지 그룹으로 나누는 방법 -> dimensionality reduction: 주어진 데이터 x의 중요한 정보를 뽑아내는 방법 Rein..
Chapter 01. 데이터사이언스란? DataScience: 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터분석, 기계학습과 연관된 방법론을 통합하는 개념 선형대수학 벡터 : 숫자의 나열. 숫자들의 묶음. x = (1, 2, 3) x = (1, 2, 3) , y = (4, 3, 1) 벡터의 연산 : x + y = (5, 5, 4) // 3 * x = (3, 6, 9) 벡터의 특징 : 원소값, 방향(상대적인 위치) 벡터의 차원 : 원소의 개수 벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한 뒤, 루트를 씌워준 값. → 원점과의 거리. (L2 norm) 벡터 공간(Vector Space) : 벡터가 정의되는 집합. 연산, 차원, 기저(basis)(=축), ... 통계 기술통계..
· 알쓸신잡
오늘은 scikit-learn-intelex를 설명해 볼 것이다. 부트캠프 강의를 수강하던 도중에 강사님이 지나가면서 슬쩍 말해주셔서 찾아봤는데, 한글로 되어 있는 설명이 하나도 없었다. 그래서 아직 실험해보진않아서 우선 가이드만 작성하고 나중에 써보고 후기를 추가하려고 한다. 우선 아래 공식github도 있으며, 공식 doc도 있으니, 자세한 것은 여기서 살펴보면 된다. GitHub - intel/scikit-learn-intelex: Intel(R) Extension for Scikit-learn is a seamless way to speed up your Scikit-learn applica Intel(R) Extension for Scikit-learn is a seamless way to sp..
창빵맨
Let's be Developers