🔌 Подключение...
💤 Ассистент спит

Сейчас играет

❌ Музыка не играет

🎯 Голосовые команды

С именем "Альберт":
Альберт, включи музыку
Без имени (всегда):
стоп пауза продолжи вперед назад

📖 Как всё устроено

🎤 Распознавание речи (Whisper)
Использую технологию Whisper от OpenAI, которая превращает вашу речь в текст. Система понимает русский язык, разные акценты и работает даже с шумом в фоне. Важно уточнить, что запущено на слабом сервере, следовательно, очень ограничен я был по потенциалу. Тот же Whisper работает на самой слабой модели.Сейчас точность распознавания от 40% до 80% в зависимости от фонового шума.
🗣️ Синтез речи (SpeechKit)
Для ответов используем Яндекс SpeechKit - он создаёт естественный голос из текста. Хотя ответы пока однотипные,но планировалось расширение функционала, с возможностью вести полноценные диалоги.
📦 Обработка аудио (WebRTC)
Звук с микрофона разбивается на чанки (маленькие фрагменты) и передаётся в реальном времени. Это позволяет обрабатывать речь без задержек.
🎵 Управление музыкой
Музыкальный плеер работает отдельно от голосовых ответов. Когда вы даёте команду, музыка продолжает играть, а голосовой ответ звучит поверх неё.
🧠 Логика работы
Система анализирует распознанный текст, находит команды и выполняет их. Поддерживает как точные команды ("стоп"), так и сложные ("Альберт, включи музыку").
📞 Связаться со мной