深度极客 - 城室科技

MiniCPM-o

MiniCPM-V 4.5: A GPT-4o Level MLLM for Single Image, Multi Image and High-FPS Video Understanding on Your Phone

minicpm minicpm-v multi-modal

Updated 2026-02-05 10:27:50 +08:00

CosyVoice

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

audio-generation cantonese chatbot chatgpt chinese cosyvoice cross-lingual english fine-grained fine-tuning gpt-4o japanese korean multi-lingual natural-language-generation python text-to-speech tts voice-cloning

Updated 2026-02-04 13:10:40 +08:00

silero-vad

Silero VAD: pre-trained enterprise-grade Voice Activity Detector

onnx onnx-runtime onnxruntime pytorch speech speech-processing vad voice-activity-detection voice-commands voice-control voice-detection voice-recognition

Updated 2025-12-30 12:05:45 +08:00

LAM_Audio2Expression

Generate ARKit expression from audio in realtime

Updated 2025-10-24 13:53:58 +08:00

MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

lip-sync virtualhumans

Updated 2025-09-26 13:44:17 +08:00

lite-avatar

Updated 2025-06-30 11:09:20 +08:00