Add server component: FastAPI + WebSocket speech pipeline

Voice-in/voice-out server for the Shop Bob machine shop assistant. STT (faster-whisper), LLM (Ollama), TTS (Piper) with sentence-level audio streaming over WebSocket for low-latency responses. Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-02-05 13:23:01 -08:00 · 2026-02-05 13:23:01 -08:00 · 98310bf062
commit 98310bf062
9 changed files with 441 additions and 0 deletions
--- a/server/init.py
+++ b/server/init.py
--- a/server/config.py
+++ b/server/config.py
@ -0,0 +1,39 @@
+from pydantic_settings import BaseSettings
+
+
+class Settings(BaseSettings):
+    model_config = {"env_prefix": "BOB_", "env_file": ".env", "env_file_encoding": "utf-8"}
+
+    # Networking
+    host: str = "0.0.0.0"
+    port: int = 8765
+
+    # Whisper STT
+    whisper_model: str = "large-v3"
+    whisper_device: str = "cuda"
+    whisper_compute_type: str = "float16"
+    stt_sample_rate: int = 16000
+    max_concurrent_transcriptions: int = 2
+
+    # Ollama LLM
+    ollama_url: str = "http://localhost:11434"
+    llm_model: str = "llama3.1:8b"
+    max_concurrent_llm: int = 3
+
+    # Piper TTS
+    piper_model: str = "en_US-lessac-medium"
+    tts_sample_rate: int = 22050
+
+    # System prompt for the machine shop assistant
+    system_prompt: str = (
+        "You are Bob, a knowledgeable machine shop assistant. "
+        "Give concise, direct answers about machining, tooling, materials, "
+        "feeds and speeds, and shop processes. "
+        "Always prioritize safety — if a question involves a potentially "
+        "dangerous operation, lead with the safety considerations. "
+        "Keep answers short and practical — shop floor workers need quick info, "
+        "not essays."
+    )
+
+
+settings = Settings()
--- a/server/connection_manager.py
+++ b/server/connection_manager.py
@ -0,0 +1,26 @@
+import logging
+
+from fastapi import WebSocket
+
+logger = logging.getLogger(__name__)
+
+
+class ConnectionManager:
+    def __init__(self) -> None:
+        self._connections: dict[str, WebSocket] = {}
+
+    async def connect(self, client_id: str, websocket: WebSocket) -> None:
+        await websocket.accept()
+        self._connections[client_id] = websocket
+        logger.info("Client connected: %s (total: %d)", client_id, len(self._connections))
+
+    def disconnect(self, client_id: str) -> None:
+        self._connections.pop(client_id, None)
+        logger.info("Client disconnected: %s (total: %d)", client_id, len(self._connections))
+
+    def get_active_connections(self) -> dict[str, WebSocket]:
+        return dict(self._connections)
+
+    @property
+    def active_count(self) -> int:
+        return len(self._connections)
--- a/server/llm.py
+++ b/server/llm.py
@ -0,0 +1,59 @@
+import asyncio
+import json
+import logging
+from collections.abc import AsyncGenerator
+
+import httpx
+
+from .config import settings
+
+logger = logging.getLogger(__name__)
+
+_semaphore = asyncio.Semaphore(settings.max_concurrent_llm)
+
+
+async def check_ollama() -> bool:
+    """Verify Ollama is reachable."""
+    try:
+        async with httpx.AsyncClient() as client:
+            resp = await client.get(f"{settings.ollama_url}/api/tags", timeout=5)
+            resp.raise_for_status()
+            return True
+    except Exception as e:
+        logger.error("Ollama not reachable at %s: %s", settings.ollama_url, e)
+        return False
+
+
+async def generate_response(
+    transcript: str,
+    system_prompt: str | None = None,
+) -> AsyncGenerator[str, None]:
+    """Stream text tokens from Ollama for the given user transcript."""
+    prompt = system_prompt or settings.system_prompt
+
+    payload = {
+        "model": settings.llm_model,
+        "messages": [
+            {"role": "system", "content": prompt},
+            {"role": "user", "content": transcript},
+        ],
+        "stream": True,
+    }
+
+    async with _semaphore:
+        async with httpx.AsyncClient(timeout=httpx.Timeout(120.0, connect=10.0)) as client:
+            async with client.stream(
+                "POST",
+                f"{settings.ollama_url}/api/chat",
+                json=payload,
+            ) as resp:
+                resp.raise_for_status()
+                async for line in resp.aiter_lines():
+                    if not line:
+                        continue
+                    data = json.loads(line)
+                    token = data.get("message", {}).get("content", "")
+                    if token:
+                        yield token
+                    if data.get("done"):
+                        break
--- a/server/main.py
+++ b/server/main.py
@ -0,0 +1,114 @@
+import json
+import logging
+from contextlib import asynccontextmanager
+
+from fastapi import FastAPI, WebSocket, WebSocketDisconnect
+from fastapi.middleware.cors import CORSMiddleware
+
+from . import llm, stt, tts
+from .config import settings
+from .connection_manager import ConnectionManager
+from .pipeline import process_request
+
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s %(levelname)s [%(name)s] %(message)s",
+)
+logger = logging.getLogger(__name__)
+
+manager = ConnectionManager()
+
+
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    # Startup
+    logger.info("Starting Shop Bob server...")
+    stt.load_model()
+    tts.load_model()
+    if not await llm.check_ollama():
+        logger.warning("Ollama is not reachable — LLM calls will fail until it's up")
+    logger.info("Shop Bob server ready on %s:%d", settings.host, settings.port)
+    yield
+    # Shutdown
+    logger.info("Shutting down Shop Bob server...")
+
+
+app = FastAPI(title="Shop Bob", lifespan=lifespan)
+
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+
+
+@app.get("/health")
+async def health():
+    ollama_ok = await llm.check_ollama()
+    return {
+        "status": "ok",
+        "active_connections": manager.active_count,
+        "ollama": "ok" if ollama_ok else "unreachable",
+    }
+
+
+@app.websocket("/ws")
+async def websocket_endpoint(websocket: WebSocket):
+    client_id: str | None = None
+    try:
+        # Wait for the first message which should be audio_start
+        raw = await websocket.receive_text()
+        msg = json.loads(raw)
+
+        if msg.get("type") != "audio_start":
+            await websocket.close(code=1008, reason="Expected audio_start message")
+            return
+
+        client_id = msg.get("client_id", "unknown")
+        sample_rate = msg.get("sample_rate", settings.stt_sample_rate)
+
+        await manager.connect(client_id, websocket)
+
+        # Main message loop
+        while True:
+            audio_chunks: list[bytes] = []
+
+            # Collect binary audio frames until audio_end
+            while True:
+                message = await websocket.receive()
+
+                if "text" in message:
+                    data = json.loads(message["text"])
+                    if data.get("type") == "audio_end":
+                        break
+                    elif data.get("type") == "audio_start":
+                        # New utterance — update sample rate if provided
+                        sample_rate = data.get("sample_rate", sample_rate)
+                        audio_chunks = []
+                        continue
+                elif "bytes" in message:
+                    audio_chunks.append(message["bytes"])
+
+            if audio_chunks:
+                audio_bytes = b"".join(audio_chunks)
+                await process_request(audio_bytes, sample_rate, websocket)
+
+    except WebSocketDisconnect:
+        logger.info("Client %s disconnected", client_id)
+    except Exception:
+        logger.exception("WebSocket error for client %s", client_id)
+    finally:
+        if client_id:
+            manager.disconnect(client_id)
+
+
+if __name__ == "__main__":
+    import uvicorn
+
+    uvicorn.run(
+        "server.main:app",
+        host=settings.host,
+        port=settings.port,
+        log_level="info",
+    )
--- a/server/pipeline.py
+++ b/server/pipeline.py
@ -0,0 +1,85 @@
+import json
+import logging
+import re
+
+from fastapi import WebSocket
+
+from . import llm, stt, tts
+
+logger = logging.getLogger(__name__)
+
+# Regex to split text on sentence boundaries while keeping the delimiters
+_SENTENCE_RE = re.compile(r"(?<=[.!?])\s+")
+
+
+async def _send_status(ws: WebSocket, state: str) -> None:
+    await ws.send_text(json.dumps({"type": "status", "state": state}))
+
+
+async def process_request(
+    audio_bytes: bytes,
+    sample_rate: int,
+    websocket: WebSocket,
+) -> None:
+    """Run the full speech-in → text-out → speech-out pipeline."""
+    try:
+        # --- STT ---
+        await _send_status(websocket, "transcribing")
+        transcript = await stt.transcribe(audio_bytes, sample_rate)
+
+        if not transcript.strip():
+            await websocket.send_text(
+                json.dumps({"type": "transcript", "text": ""})
+            )
+            await websocket.send_text(json.dumps({"type": "response_end"}))
+            return
+
+        await websocket.send_text(
+            json.dumps({"type": "transcript", "text": transcript})
+        )
+
+        # --- LLM ---
+        await _send_status(websocket, "thinking")
+        full_response = ""
+        sentence_buffer = ""
+
+        # --- Sentence-level TTS streaming ---
+        await _send_status(websocket, "speaking")
+
+        async for token in llm.generate_response(transcript):
+            full_response += token
+            sentence_buffer += token
+
+            # Check if we have one or more complete sentences
+            parts = _SENTENCE_RE.split(sentence_buffer)
+            if len(parts) > 1:
+                # All parts except the last are complete sentences
+                for sentence in parts[:-1]:
+                    sentence = sentence.strip()
+                    if sentence:
+                        audio_chunk = await tts.synthesize(sentence)
+                        await websocket.send_bytes(audio_chunk)
+                # Keep the incomplete remainder
+                sentence_buffer = parts[-1]
+
+        # Flush any remaining text
+        sentence_buffer = sentence_buffer.strip()
+        if sentence_buffer:
+            audio_chunk = await tts.synthesize(sentence_buffer)
+            await websocket.send_bytes(audio_chunk)
+
+        # Send the full text response and signal completion
+        await websocket.send_text(
+            json.dumps({"type": "response_text", "text": full_response})
+        )
+        await websocket.send_text(json.dumps({"type": "response_end"}))
+
+    except Exception:
+        logger.exception("Pipeline error")
+        try:
+            await websocket.send_text(
+                json.dumps({"type": "error", "text": "Internal processing error"})
+            )
+            await websocket.send_text(json.dumps({"type": "response_end"}))
+        except Exception:
+            pass  # Client already disconnected
--- a/server/requirements.txt
+++ b/server/requirements.txt
@ -0,0 +1,8 @@
+fastapi>=0.104
+uvicorn[standard]>=0.24
+websockets>=12.0
+faster-whisper>=1.0
+httpx>=0.25
+piper-tts>=1.2
+numpy>=1.24
+pydantic-settings>=2.0
--- a/server/stt.py
+++ b/server/stt.py
@ -0,0 +1,62 @@
+import asyncio
+import logging
+from concurrent.futures import ThreadPoolExecutor
+from functools import partial
+
+import numpy as np
+from faster_whisper import WhisperModel
+
+from .config import settings
+
+logger = logging.getLogger(__name__)
+
+_model: WhisperModel | None = None
+_executor = ThreadPoolExecutor(max_workers=settings.max_concurrent_transcriptions)
+_semaphore = asyncio.Semaphore(settings.max_concurrent_transcriptions)
+
+
+def load_model() -> None:
+    global _model
+    logger.info(
+        "Loading Whisper model %s on %s (%s)...",
+        settings.whisper_model,
+        settings.whisper_device,
+        settings.whisper_compute_type,
+    )
+    _model = WhisperModel(
+        settings.whisper_model,
+        device=settings.whisper_device,
+        compute_type=settings.whisper_compute_type,
+    )
+    logger.info("Whisper model loaded.")
+
+
+def _transcribe_sync(audio_bytes: bytes, sample_rate: int) -> str:
+    assert _model is not None, "Whisper model not loaded — call load_model() first"
+
+    # Convert raw PCM 16-bit mono bytes to float32 numpy array
+    audio = np.frombuffer(audio_bytes, dtype=np.int16).astype(np.float32) / 32768.0
+
+    if sample_rate != 16000:
+        # faster-whisper expects 16kHz — resample via simple linear interpolation
+        duration = len(audio) / sample_rate
+        target_len = int(duration * 16000)
+        audio = np.interp(
+            np.linspace(0, len(audio) - 1, target_len),
+            np.arange(len(audio)),
+            audio,
+        ).astype(np.float32)
+
+    segments, info = _model.transcribe(audio, beam_size=5)
+    text = " ".join(seg.text.strip() for seg in segments)
+    logger.info("Transcribed %.1fs audio → %d chars", info.duration, len(text))
+    return text
+
+
+async def transcribe(audio_bytes: bytes, sample_rate: int) -> str:
+    async with _semaphore:
+        loop = asyncio.get_running_loop()
+        return await loop.run_in_executor(
+            _executor,
+            partial(_transcribe_sync, audio_bytes, sample_rate),
+        )
--- a/server/tts.py
+++ b/server/tts.py
@ -0,0 +1,48 @@
+import asyncio
+import io
+import logging
+import wave
+from concurrent.futures import ThreadPoolExecutor
+from functools import partial
+
+from piper.voice import PiperVoice
+
+from .config import settings
+
+logger = logging.getLogger(__name__)
+
+_voice: PiperVoice | None = None
+_executor = ThreadPoolExecutor(max_workers=2)
+
+
+def load_model() -> None:
+    global _voice
+    logger.info("Loading Piper TTS voice %s...", settings.piper_model)
+    _voice = PiperVoice.load(settings.piper_model)
+    logger.info("Piper TTS loaded.")
+
+
+def _synthesize_sync(text: str) -> bytes:
+    """Synthesize text to raw PCM 16-bit mono audio bytes."""
+    assert _voice is not None, "Piper voice not loaded — call load_model() first"
+
+    buf = io.BytesIO()
+    with wave.open(buf, "wb") as wf:
+        _voice.synthesize(text, wf)
+
+    # Extract raw PCM from the WAV container
+    buf.seek(0)
+    with wave.open(buf, "rb") as wf:
+        pcm_data = wf.readframes(wf.getnframes())
+
+    logger.debug("Synthesized %d chars → %d bytes PCM", len(text), len(pcm_data))
+    return pcm_data
+
+
+async def synthesize(text: str) -> bytes:
+    """Async wrapper — runs Piper in a thread pool."""
+    loop = asyncio.get_running_loop()
+    return await loop.run_in_executor(
+        _executor,
+        partial(_synthesize_sync, text),
+    )