이 도구는 영상 링크로부터 영상을 다운로드하고 Whisper AI를 사용해 자막을 추출합니다.
extract_subs.bat실행- 링크 붙여넣기 (Ctrl+V)
- 파일명 입력
- 자동 처리 완료
- 영상 다운로드 (yt-dlp)
- 오디오 추출 (ffmpeg)
- 음성 인식 (whisper)
- 자막 파일 생성 (subs 폴더)
- ggml-large-v3.bin (3.1GB) - 최고 정확도
--flash-attn # GPU 가속 (RTX 4060 권장)
--no-gpu # GPU 비활성화
--threads N # CPU 스레드 수 (기본: 4)
--processors N # 프로세서 수 (기본: 1)--temperature N # 샘플링 온도 (0-1, 기본: 0.2)
--beam-size N # 빔 서치 크기 (기본: 5)
--best-of N # 최선 후보 수 (기본: 5)--output-txt # 텍스트 파일 출력
--output-srt # SRT 자막 파일 출력
--output-vtt # VTT 자막 파일 출력
--no-timestamps # 타임스탬프 제거-l ko # 한국어 설정
--translate # 영어로 번역
--diarize # 화자 분리RTX 4060 사용 시 권장 설정:
.\whisper-cli.exe -m ggml-large-v3.bin -l ko "%filename%.wav" --output-txt --flash-attn --threads 850분 영상: 15-25분 처리 GPU 가속 시: 10-15분 처리
# large-v3 (3.1GB)
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v3.bin" -OutFile "ggml-large-v3.bin"- 최소 RAM: 8GB (large-v3는 16GB 권장)
- GPU: NVIDIA RTX 시리즈 (선택사항)
- 저장공간: 모델 크기 + 영상 크기
- large-v3: 프로세스당 ~8GB RAM 사용
- 동시 실행 제한: 32GB RAM 기준 2-3개까지만
error: The system cannot find the file specified.
→ 모델 파일을 먼저 다운로드하세요
error: unknown argument: -ngl
→ --flash-attn 또는 --no-gpu 사용
→ --temperature 0.2 --no-timestamps 옵션 추가