전체 글

· 알쓸신잡
오늘은 vscode의 폰트를 바꿔봤다. 얼마전 Victor mono라는 폰트를 알게되었는데, 개인적으로 맘에들어서 사용하게되었다. 1. 폰트 설치 우선 자신의 pc에 해당 폰트가 설치되어 있어야 한다. 나는 google fonts에서 폰트를 다운로드 받았다. Victor Mono - Google Fonts Victor Mono is a monospaced font with optional semi-connected cursive italics and programming symbol ligatures. The typeface is slender, crisp and narrow, with fonts.google.com 2. vscode 적용 다음으로 vscode에 들어가서 좌측 상단의 `File`->`pr..
· 알쓸신잡
hELLO 스킨(헬로 스킨) 오늘은 개발 블로그에서 자주 보이는 hELLO 스킨의 커스텀을 진행하였다.우선 hELLO 스킨은 정상우님이 만드신 티스토리 스킨으로 매우 깔끔하고 다양한 기능들이 포함되어있다 ! 우선 제작자 정상우님의 블로그에 대략적인 기능들이 포함되어 있으며, 해당 글에 GITHUB DISCUSSION 링크도 있어서 간단한 오류들이나 기능들은 저기서도 확인하면 될 것 같다. hELLO 티스토리 스킨을 소개합니다.hELLO 스킨은 초기에 기능이 많이 없었다가, 티스토리 블로거 여러분의 호응에 힘입어 기능의 추가와 함께 업데이트를 여러 번 하게 되었습니다. hELLO 1.0 때와 비교하면 비교할 수도 없을 만큼의pronist.tistory.com  GitHub - tidory/hello: 😎..
· 알쓸신잡
오늘은 Github 2fa - github two factor authentication을 사용하는 방법을 작성하겠다. 갑자기 왜 작성하냐면 얼마 전 github에서 메일이 와서 확인했더니, 45일 안에 2중 인증을 등록하지 않으면, 인증할 때까지 깃허브에 접근할 수 없다고 떴다. 난 이미 github mobile을 통해서 인증을 해놨었는데 화들짝 놀라서 추가적으로 설정을 진행하였다. 우선 github에서 자신의 프로필 이미지를 클릭하여 `setting`에서 오른쪽의 `password and authentication`에 들어간다. 그다음 아래로 내리면 2FA밑에 초록색 버튼이 있는 것을 확인할 수 있다. 그러면 깃허브 모바일로 우선 로그인을 1차적으로 진행하면 QR화면이 뜰 것이다. 이후 여러 opt ..
· ML & DL/NLP
영어의 경우 합성어나 줄임말 등과 같은 예외처리만 되면 띄어쓰기를 기준으로 토큰화를 진행하면 어느 정도 성능을 보장할 수 있다. 그러나 한국어의 경우 조사나 어미 등이 발달되어 있기 때문에 띄어쓰기만으로 단어를 분리하면 의미적인 훼손이 일어날 수 있다. 한국어의 경우 띄어쓰기 단위가 되는 단위를 어절이라고 부르는데, 어절 토큰화와 단어 토큰화가 같지 않기 때문이다. 이는 한국어가 교착어이기 때문에 발생하는 특징이다. 1. 형태소 분석 형태소 분석이란 형태소를 비롯하여 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것을 의미한다. 이는 형태소를 추출, 분리하고 품사를 태깅(PoS) 순서로 진행된다. 만약 일반적인 영어와 같은 전처리 방법(띄어쓰기 단위로 분류)를 이용하면 한국어에서..
· ML & DL/NLP
1. 자연어 Corpus `자연어 Corpus`=대량의 텍스트 데이터. --> 자연어처리 작업의 특성을 잘 담아낼 수 있는 다양한 패턴의 데이터가 포함되어야 하며, 유의미한 규모를 가지고 있어야 하고 그 데이터가 대표성을 띄워야 한다. -> 문제정의 및 설루션을 설정해야 하며 언어 종류, 코퍼스의 종류, 코퍼스의 규모 등을 결정해야 한다. 코퍼스는 외부데이터셋 혹은 온라인 뉴스, 책, 웹 등에서 저작권을 고려하여 수집할 수 있다. 1-1. 코퍼스의 종류 필요한 자연어 코퍼스 유형을 구체적으로 결정해야 한다. 이는 자연어 처리 작업과 연결된다. 이들은 해당 자연어 처리 작업의 특성을 잘 담아낼 수 있도록, 데이터의 패턴이 다양할수록 모델의 일반화 성능이 좋아진다. ex) 기계번역 작업 = 영어 원본 문장,..
내 다른 프로젝트인 수위 예측 프로젝트를 1년동안 질질 끌면서 온갖 다양한 걸 써봐서 머신러닝에 대해선 뭐 대충 잘 안다고 생각했었는데, 강사님이랑 같이 새로운 프로젝트에 대해서 간단하게나마 해보면서 부족한 걸 배웠던 것 같다. !!! 이번 실습은 단순 실습용어서 다양한 EDA 및 feature engineering을 진행하지는 않고 강의에서 배운 optuna와 kfold를 사용한 baseline 코드 만들기 실습정도로 봐주면 될 것 같다. (사실상 구어체로 작성하듯이 해서 회고와 가깝다 내 느낀점) 데이콘 전력사용량 예측 AI 경진대회 오늘은 패스트캠퍼스 부트캠프를 진행하면서 실습한 데이콘의 2023 전력사용량 예측 AI 경진대회에 대해서 간단하게 작성해보고자 한다. 이 대회는 재작년에도 열렸던 것 같..
부스팅 부스팅은 머신러닝 앙상블 기법 중 하나로 약한 학습기를 순차적으로 결합하여 예측/분류 성능을 높이는 알고리즘이다. 위의 데이터처럼 모델링을 진행하면서 가중치를 업데이트하며 순차적으로 학습시키는 방식이다. 부스팅 알고리즘에 여러 개의 모델(알고리즘)이 있는데 각기 다른 특징을 가지고 있다. 1. AdaBoost AdaBoost는 Adaptive Boosting의 약자로 오류 데이터에 가중치를 가하여 더하는 방식이다. 분류하기 어려운 것들에는 가중치를 더하고, 분류하기 쉬운 것들에는 가중치를 줄이면서 가중치를 업데이트한다. 이때 약한 학습기 즉 각각의 분류기는 Decision Tree를 약한 학습기로 사용한다. 그림으로 보면, 첫 번째 반복에서 잘못학습된 것들은 두 번째 반복에서 가중치가 커진 것(모..
창빵맨
Let's be Developers