Explore - 城室科技

deepgeek/ MiniCPM-o

MiniCPM-V 4.5: A GPT-4o Level MLLM for Single Image, Multi Image and High-FPS Video Understanding on Your Phone

minicpm minicpm-v multi-modal

Updated 2026-02-05 10:27:50 +08:00

deepgeek/ CosyVoice

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

audio-generation cantonese chatbot chatgpt chinese cosyvoice cross-lingual english fine-grained fine-tuning gpt-4o japanese korean multi-lingual natural-language-generation python text-to-speech tts voice-cloning

Updated 2026-02-04 13:10:40 +08:00

deepgeek/ Matcha-TTS

[ICASSP 2024] 🍵 Matcha-TTS: A fast TTS architecture with conditional flow matching

Updated 2026-01-20 06:11:39 +08:00

deepgeek/ silero-vad

Silero VAD: pre-trained enterprise-grade Voice Activity Detector

onnx onnx-runtime onnxruntime pytorch speech speech-processing vad voice-activity-detection voice-commands voice-control voice-detection voice-recognition

Updated 2025-12-30 12:05:45 +08:00

deepgeek/ LAM_Audio2Expression

Generate ARKit expression from audio in realtime

Updated 2025-10-24 13:53:58 +08:00

deepgeek/ MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

lip-sync virtualhumans

Updated 2025-09-26 13:44:17 +08:00

deepgeek/ OpenAvatarChat-WebUI

Web UI for OpenAvatarChat

Updated 2025-08-28 22:59:48 +08:00

deepgeek/ gradio-webrtc

Realtime Video and Audio Streaming with WebRTC and Gradio

Updated 2025-06-30 23:11:02 +08:00

deepgeek/ lite-avatar

Updated 2025-06-30 11:09:20 +08:00

deepgeek/ stacks

DeepGeek OS的容器stacks部署中心，集成在dockge中自动部署

Updated 2025-04-18 15:32:03 +08:00

deepgeek/ MesloLGSNF

MesloLGS NF fonts

Updated 2023-08-11 08:19:03 +08:00