Cloudflare R2 가입 & 설정 가이드
·
알쓸신잡
오늘은 쓰레드 자동화를 계획하던 도중, 쓰레드 글에 API를 이용하여 미디어(이미지, 동영상)을 첨부하기 위해서는 공개 접근 가능한 URL이 있어야 한다는 걸 알았다. 그래서 스토리지를 알아보던 도중 Cloudflare R2가 10GB까지 무료라고 하길래 이참에 써보기로 했다.추가로 Egress(데이터전송)이 무료라서 나중에 옮기기도 쉬울 것 같았다. Step 1: Cloudflare 계정 가입dash.cloudflare.com/sign-up 접속이메일 + 비밀번호로 가입 (무료)이메일 인증 완료[!tip] 신용카드 등록이 필요할 수 있지만, 무료 범위 내에서는 과금되지 않습니다.Step 2: R2 버킷 생성대시보드 왼쪽 메뉴에서 R2 Object Storage 클릭Create bucket 클릭버킷 이름..
Claudian-옵시디언에서 Claude Code 사용하기
·
알쓸신잡
회사에서 Claude Code를 결제해줘서 최근 유용하게 사용 중이다.그러다 보니 예전부터 미뤄왔던 옵시디언 정리를 하고 싶다는 생각이 들었다. 개발 내용 문서화도 하고, 개인 정리도 하고 싶었는데 문제가 하나 있었다.Claude Code와 옵시디언을 연동해주는 플러그인이 없더라.그래서 어쩔 수 없이 옵시디언의 bash 플러그인을 이용해서 별도로 창을 띄워서 사용했었다. 솔직히 좀 불편했다. 설정도 귀찮고, 매번 창을 따로 열어야 하고...그러던 중에 우연히 발견한 게 바로 Claudian이다!ClaudianClaudian은 옵시디언 플러그인인데, Claude Code를 옵시디언 안에서 바로 사용할 수 있게 해준다. 쉽게 말해서 옵시디언 Vault가 Claude의 작업 디렉토리가 되는 것이다.처음 봤을 ..
Daggr - HuggingFace의 새로운 AI 워크플로우 도구
·
알쓸신잡
오늘은 최근 HuggingFace에서 공개한 Daggr라는 도구에 대해서 알아보려 한다. 2026년 1월 29일에 공개된 따끈따끈한 신상인데, AI 파이프라인 구축할 때 겪는 여러 문제들을 해결할 수 있는 도구라고 한다.Daggr가 뭐냐면쉽게 말해, 여러 AI 모델이나 처리 단계를 연결해서 복잡한 워크플로우를 만드는 Python 라이브러리다.Gradio 팀에서 만들었는데, Gradio 앱, ML 모델, 커스텀 함수를 블록처럼조립할 수 있다.예를 들어, "이미지 생성 → 배경 제거 → 3D 에셋 변환"이라는 10단계 파이프라인이 있다고 치자.기존 방식으로는 중간에 뭔가 잘못되면 전체를 다시 돌려야 했는데, Daggr는 각 단계를 독립적으로 재실행하고 결과를 확인할 수 있다.나는 처음에 "또 하나의 GUI ..
Microsoft VibeVoice-ASR
·
알쓸신잡
최근 음성 인식 기술이 정말 빠르게 발전하고 있다는 걸 체감하는 요즘인데, 마이크로소프트가 또 하나 재미있는 걸 오픈소스로 공개했다고 한다.바로 VibeVoice-ASR이라는 음성-텍스트 변환 모델이다.오늘은 이 VibeVoice-ASR이 뭔지, 왜 주목할 만한지 정리해보려 한다.VibeVoice-ASRVibeVoice-ASR은 마이크로소프트가 2026년 1월 21일에 오픈소스로 공개한 자동 음성 인식(ASR) 모델이다. 쉽게 말해 음성 파일을 텍스트로 변환해 주는 AI인데, 기존 모델들과는 좀 다른 특징이 있다.가장 눈에 띄는 건 60분짜리 음성을 통째로 한번에 처리할 수 있다는 점이다. 보통 ASR 모델들은 긴 음성을 짧게 잘라서 처리하는데, 이 녀석은 한 시간짜리를 그냥 한방에 받아서 처리한다.Vi..
PaddleOCR-VL-1.5-초경량 OCR의 새로운 강자
·
알쓸신잡
약 2-3개월 전부터 vlm을 이용한 OCR 모델들이 우르르 쏟아졌다. 그중에 Qwen 같은 대형 모델들도 있고 OCR에만 특화된 nanonet, dots.cor 등 소형 모델들도 다수 등장했다.문서 파싱쪽 업무를 담당하면서 일주일에 10개씩 모델을 올렸다 내렸다 하고 있었는데 테스트 결과 정리하기도 이전에 새로운 모델이 또 출시됐다.사실 이전 버전인 PaddleOCR-VL도 동일하게 0.9B에다가 벤치마크가 좋았어서 써봤었다.성능은 기대만큼 괜찮았지만 아주 아주 약간의 아쉽지만 치명적인 부분들이 있었는데, 그런데 어제 마침 새로운 버전이 나왔다고 한다.불과 0.9B 파라미터로 Gemini 3 Pro 같은 거대 모델들을 제치고 OCR 벤치마크 1위를 차지한 **PaddleOCR-VL-1.5가 그 주인공이..
Qwen3-ASR 오픈소스 음성 인식의 새로운 강자
·
카테고리 없음
오늘은 어제 알리바바 클라우드의 Qwen 팀에서 공개한 Qwen3-ASR에 대해서 알아보려 한다.2026년 1월 29일에 출시된 따끈따끈한 모델인데, 음성 인식(ASR) 분야에서 꽤 혁신적인 접근을 보여주고 있어서 정리해 봤다.Qwen3-ASR은 알리바바 클라우드의 Qwen 팀이 만든 오픈소스 자동 음성 인식(ASR) 모델이다.단순히 음성을 텍스트로 바꾸는 데서 그치지 않고, 언어 식별부터 타임스탬프 예측까지 한 번에 처리할 수 있다는 게 특징이다.모델은 두 가지 버전으로 나왔다:Qwen3-ASR-0.6B: 가벼운 버전, 속도가 미친 듯이 빠름Qwen3-ASR-1.7B: 성능 위주 버전, 오픈소스 중 최고 수준여기에 더해 Qwen3-ForcedAligner-0.6B라는 보조 모델도 있는데, 이건 음성과 ..