프로젝트

우선 아래와 같이 필요한 라이브러리와 모듈등을 한번에 설치해준다. import pandas as pd import numpy as np import pickle from gensim.models import Word2Vec from gensim import models import konlpy from konlpy.tag import Mecab import re import nltk from nltk.corpus import stopwords nltk.download('stopwords') stop_words = stopwords.words('english') from sklearn.model_selection import train_test_split from sklearn.metrics import ..
저번글에서 임베딩을 해보았고 오늘은 임베딩한 벡터값들을 이용해서 본격적인 모델에 적용하는 과정이다. with open('/content/drive/MyDrive/Personal Project/Classify_fake-news/train_data.pkl', 'rb') as f: train_set = pickle.load(f) with open('/content/drive/MyDrive/Personal Project/Classify_fake-news/test_data.pkl', 'rb') as f: test_set = pickle.load(f) 우선 train_set이라는 데이터파일과 test_set파일들을 불러온다. 파일들의 확장자가 pkl로 되어 있는 이유는 각단어마다 임베딩한 벡터값들이 [1.xx, 2..
저번시간에 임베딩에 대해 간략하게 설명했고 오늘은 우리 데이터셋에 적용해보았다. 첫번째 고려한 것은 우리가 우리 뉴스데이터로만 모델을 만들 것인지 아니면 pre-traine모델과 우리 모델을 결합하여 사용할 것인지 였다. pre-trained 모델은 말그대로 이미 사전 훈련된 모델이다. 더 방대한 데이터셋을 통해서 이미 훈련된 모델을 이용하는 것이었다. 모델을 구현하기 위해 고민을 많이 했었는데, 아래 글을 읽어보고 우리 데이터로만 모델을 구축해보기로 결정했다. Word Embeddings in Python with Spacy and Gensim Word Embeddings in Python with Spacy and Gensim www.cambridgespark.com 우선 위 글에서 pre_train..
오늘은 저번시간에 전처리한 데이터를 가지고 벡터화/임베딩을 해보았다. 우선 임베딩에 대해서 간략하게 설명해보겠다. 임베딩이란 위와 같이 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미한다. 임베딩 전에 우선 가장 기본적인 벡터화 방법인 one-hot-encoding에 대해서 설명하겠다. One-hot Encoding 필요한 정보를 담은 하나의 값만 1로 두고, 나머지 값은 0으로 설정하는 방법->희소행렬 단어가 많을수록 벡터 공간만 커지는 비효율적인 방법 원-핫 인코딩은 단어가 무엇인지만을 알려줄 뿐 어떤 특징을 가지고 있는지 설명하지 못한다 08) 원-핫 인코딩(One-Hot Encoding) 컴퓨터 또는 기계는 문자보다는 숫자를 더 잘 처리 할 ..
두번째 프로젝트는 가짜 뉴스 구별하기이다. 우선 프로젝트의 목적은 이름처럼 가짜뉴스와 진짜뉴스데이터로 학습시킨뒤에 우리가 어떤 뉴스데이터를 가져왔을 때 그게 가짜인지 진짜인지 구별하는 것이다. 우리는 영어뉴스로 프로젝트를 시작했는데, 그 이유는 한국어로 하면 너무 분류가 어렵기 때문이다..데이터를 정제하는 것도 어렵고, 의미파악 등등 한국어는 너무 어려웠다. 오늘은 자연어처리 중 첫번째인 전처리에 대해서 간략하게 설명하고 뉴스데이터에 대한 전처리까지 진행해보겠다. [데이터] 데이터는 캐글에 있는 데이터를 가져왔다. Fake and real news dataset Classifying the news www.kaggle.com 데이터는 우선 가짜뉴스 파일과 진짜뉴스 파일이 따로 포함되어있다. import ..
창빵맨
'프로젝트' 카테고리의 글 목록 (5 Page)