ML & DL

· ML & DL/NLP
자연어 처리 용어 `자연어`: 프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어. `자연어처리`: 컴퓨터가 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야 -> 인간과 기계간의 커뮤니케이션을 개선하는 것이 목표(정보추출, 의미 파악, 자연어 소통) `자연어처리 활용`: 문서분류, 스팸처리, 검색어 추천, 음성인식, 질의응답, 번역 등 다양한 분야에서 사용됨. `자연어처리(NLP-Natural Language Processing)` = `자연어이해(NLU-Natural Language Understand)`+`자연어생성(NLG- Natural Language Generation)` `NLU`: 기계가 자연어의 의미(감정, 의도, 실제 ..
· ML & DL/NLP
본 카테고리는 패스트캠퍼스 [한 번에 끝내는 자연어 처리 초격차 패키지 Online] 을 들으면서 정리한 내용이다. 한 번에 끝내는 자연어 처리 초격차 패키지 Online. | 패스트캠퍼스 자연어 처리 기본기부터 최신 Transformer 알고리즘까지 이론과 실습 모두 다루는 80시간 커리큘럼! 한국어 자연어 처리를 위한 KLUE 강의 포함! fastcampus.co.kr
머신러닝 `머신러닝`: 컴퓨터가 주어진 입력값 X와 결과값 Y 사이의 관계를 찾아내는, 모델링하는 것을 의미한다. Supervised learning(지도학습) : 입력데이터 x와 정답데이터 y가 학습에 함께 사용되는 방법. -> classification: 주어진 데이터 x를 몇 가지 종류로 나누는 방법 -> regression: 주어진 데이터 x와 그에 대한 정답값 y사이의 관계를 찾는 방법. Unsupervised learning(비지도 학습) : 입력데이터만 학습에 사용되는 방법론(정답 데이터 y가 주어지지 않음) -> clustering: 주어진 데이터 x를 몇 가지 그룹으로 나누는 방법 -> dimensionality reduction: 주어진 데이터 x의 중요한 정보를 뽑아내는 방법 Rein..
Chapter 01. 데이터사이언스란? DataScience: 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터분석, 기계학습과 연관된 방법론을 통합하는 개념 선형대수학 벡터 : 숫자의 나열. 숫자들의 묶음. x = (1, 2, 3) x = (1, 2, 3) , y = (4, 3, 1) 벡터의 연산 : x + y = (5, 5, 4) // 3 * x = (3, 6, 9) 벡터의 특징 : 원소값, 방향(상대적인 위치) 벡터의 차원 : 원소의 개수 벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한 뒤, 루트를 씌워준 값. → 원점과의 거리. (L2 norm) 벡터 공간(Vector Space) : 벡터가 정의되는 집합. 연산, 차원, 기저(basis)(=축), ... 통계 기술통계..
데이터 셀렉션 및 필터링 (p.62) 넘파이의 경우에는 [ ]연산자를 이용해서 값을 추출하거나, 슬라이싱 , 인덱싱 등을 수행했었는데, 판다스의 경우 .iloc[]이나 .loc[]를 이용하여 동일한 작업을 수행한다. 그전에 우선 판다스의 [ ]연산자와 넘파이의 [ ] 연산자의 차이를 알아보자 우선 쉽게 이해하려면 판다스에서의 [ ] 연산자는 단순하게 column을 지정할 수 있는 연산자라고만 생각하면 편하다. 예를 들어 데이터프레임에서 특정 컬럼을 추출하고자 하는데, [ ] 안에 컬럼명이 아닌 숫자등을 적게 되면 오류가 난다. 그런데 또 숫자를 적으면 무조건 오류가 나는 것이 아니라, 단일 숫자값등을 적으면 오류가 나는데, 인덱싱을 나타내는 0:2 혹은 boolean 인덱싱을 나타내는 것들은 [ ] 안에..
데이터 핸들링 판다스 (p.39) 판다스는 파이썬에서 데이터 처리를 위해 사용되는 라이브러리. 핵심객체는 DataFrame으로, 여러개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체이다. 판다스 시작- 파일을 DataFrame으로 로딩, 기본 API import pandas as pd 판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 api를 제공한다.(read_csv, read_table, read_fwf 등) 이 때 read_csv()와 read_table의 차이는 필드 구문 문자(Delimeter)을 csv에서는 ,를 기준으로 하고 table에서는 tab을 기준으로 한다는 것이다. 이 때 read_csv()의 경우 사실 sep라는 인자를 추가해주면 어떠한 형식..
창빵맨
'ML & DL' 카테고리의 글 목록 (11 Page)