저번시간에 임베딩에 대해 간략하게 설명했고 오늘은 우리 데이터셋에 적용해보았다. 첫번째 고려한 것은 우리가 우리 뉴스데이터로만 모델을 만들 것인지 아니면 pre-traine모델과 우리 모델을 결합하여 사용할 것인지 였다. pre-trained 모델은 말그대로 이미 사전 훈련된 모델이다. 더 방대한 데이터셋을 통해서 이미 훈련된 모델을 이용하는 것이었다. 모델을 구현하기 위해 고민을 많이 했었는데, 아래 글을 읽어보고 우리 데이터로만 모델을 구축해보기로 결정했다. Word Embeddings in Python with Spacy and Gensim Word Embeddings in Python with Spacy and Gensim www.cambridgespark.com 우선 위 글에서 pre_train..
분류 전체보기
오늘은 저번시간에 전처리한 데이터를 가지고 벡터화/임베딩을 해보았다. 우선 임베딩에 대해서 간략하게 설명해보겠다. 임베딩이란 위와 같이 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미한다. 임베딩 전에 우선 가장 기본적인 벡터화 방법인 one-hot-encoding에 대해서 설명하겠다. One-hot Encoding 필요한 정보를 담은 하나의 값만 1로 두고, 나머지 값은 0으로 설정하는 방법->희소행렬 단어가 많을수록 벡터 공간만 커지는 비효율적인 방법 원-핫 인코딩은 단어가 무엇인지만을 알려줄 뿐 어떤 특징을 가지고 있는지 설명하지 못한다 08) 원-핫 인코딩(One-Hot Encoding) 컴퓨터 또는 기계는 문자보다는 숫자를 더 잘 처리 할 ..
두번째 프로젝트는 가짜 뉴스 구별하기이다. 우선 프로젝트의 목적은 이름처럼 가짜뉴스와 진짜뉴스데이터로 학습시킨뒤에 우리가 어떤 뉴스데이터를 가져왔을 때 그게 가짜인지 진짜인지 구별하는 것이다. 우리는 영어뉴스로 프로젝트를 시작했는데, 그 이유는 한국어로 하면 너무 분류가 어렵기 때문이다..데이터를 정제하는 것도 어렵고, 의미파악 등등 한국어는 너무 어려웠다. 오늘은 자연어처리 중 첫번째인 전처리에 대해서 간략하게 설명하고 뉴스데이터에 대한 전처리까지 진행해보겠다. [데이터] 데이터는 캐글에 있는 데이터를 가져왔다. Fake and real news dataset Classifying the news www.kaggle.com 데이터는 우선 가짜뉴스 파일과 진짜뉴스 파일이 따로 포함되어있다. import ..
문제 15724번: 주지수 네모 왕국의 왕인 진경대왕은 왕국의 영토를 편하게 통치하기 위해서 1X1의 단위 구역을 여러 개 묶어서 하나의 거대 행정구역인 주지수(州地數, 마을의 땅을 셈)를 만들 예정이다. 진경대왕은 www.acmicpc.net 코드 My answer(Wrong answer) import sys input=sys.stdin.readline n,m=map(int,input().split()) land=[[0 for i in range(n)] for j in range(m)] dp=land.copy() dp[0][0]=land[0][0] for i in range(n): land[i]=list(map(int,input().split())) t=int(input()) for i in range..
문제 18115번: 카드 놓기 수현이는 카드 기술을 연습하고 있다. 수현이의 손에 들린 카드를 하나씩 내려놓아 바닥에 쌓으려고 한다. 수현이가 쓸 수 있는 기술은 다음 3가지다. 제일 위의 카드 1장을 바닥에 내려놓는다. www.acmicpc.net 코드 My answer(시간초과) import sys input=sys.stdin.readline ocnt=0 n=int(input()) origin=[0 for i in range(n)] card=[i for i in range(n,0,-1)] tech=list(map(int,input().split())) for i in range(len(tech)): if(tech[i]==1): for j in range(n): if(origin[j]==0): brea..
문제 11286번: 절댓값 힙 첫째 줄에 연산의 개수 N(1≤N≤100,000)이 주어진다. 다음 N개의 줄에는 연산에 대한 정보를 나타내는 정수 x가 주어진다. 만약 x가 0이 아니라면 배열에 x라는 값을 넣는(추가하는) 연산이고, x가 0 www.acmicpc.net 코드 My answer import sys import heapq input=sys.stdin.readline n=int(input()) heap = [] for i in range(n): tmp=int(input()) if(tmp!=0): heapq.heappush(heap, (abs(tmp),tmp)) else: if(heap==[]): print(0) else: result=heapq.heappop(heap) print(result..