Setup-Guide
Bring PulseScribe auf macOS oder Windows in unter 2 Minuten zum Laufen. Dieser Guide behandelt Installation, API-Key-Konfiguration und deine erste Diktatsitzung.
Download & Installation
Lade das neueste Release von GitHub herunter.
sudo xattr -dr com.apple.quarantine /Applications/PulseScribe.app
open /Applications/PulseScribe.appAPI-Key besorgen
PulseScribe unterstützt mehrere Transkriptionsanbieter. Wir empfehlen, mit Deepgram zu starten für die beste Latenz (~300ms via Streaming).
| Anbieter | Latenz | Kostenlos | Registrieren |
|---|---|---|---|
| Deepgram | ~300ms | $200 Guthaben | console.deepgram.com |
| Groq | ~1s | Kostenloses Guthaben | console.groq.com |
| OpenAI | ~2-3s | Pay-as-you-go | platform.openai.com |
| Lokales Whisper | variiert | Kostenlos (offline) | Keine Registrierung nötig |
Über Einstellungen konfigurieren
Öffne Einstellungen über die Menüleiste (macOS: 🎤 Icon) oder System-Tray (Windows: Rechtsklick). Alle Einstellungen können hier konfiguriert werden:
Alternative: Über .env-Datei konfigurieren
# API Keys
DEEPGRAM_API_KEY=your_key_here
# Settings
PULSESCRIBE_MODE=deepgram
PULSESCRIBE_LANGUAGE=en
PULSESCRIBE_REFINE=trueBerechtigungen erteilen
PulseScribe benötigt Berechtigungen:
- 1.Mikrofon — Erforderlich für Sprachaufnahme.
Systemeinstellungen → Datenschutz & Sicherheit → Mikrofon → PulseScribe aktivieren - 2.Bedienungshilfen (für Auto-Paste) — Erforderlich um Text automatisch einzufügen.
Systemeinstellungen → Datenschutz & Sicherheit → Bedienungshilfen → PulseScribe aktivieren - 3.Eingabeüberwachung (für Hold-Modus) — Nur nötig wenn Fn/Globe als Haltetaste verwendet wird.
Systemeinstellungen → Datenschutz & Sicherheit → Eingabeüberwachung → PulseScribe aktivieren
Diktieren starten
Drücke deinen Hotkey und sprich. Auf macOS ist Standard Fn/Globe. Auf Windows nutze Strg+Alt+R (Toggle) oder Strg+Win (Hold).
Taste halten → Sprechen → Loslassen → Text wird eingefügt
Hotkey drücken → Sprechen → Nochmal drücken → Text wird eingefügt
Hotkey-Konfiguration
Passe deine Auslösetaste in den Einstellungen oder via Umgebungsvariablen an:
# Hold mode (Push-to-Talk) — recommended
PULSESCRIBE_HOLD_HOTKEY=fn
# Toggle mode (optional, in addition to hold)
PULSESCRIBE_TOGGLE_HOTKEY=f19
# Windows defaults
# PULSESCRIBE_TOGGLE_HOTKEY=ctrl+alt+r
# PULSESCRIBE_HOLD_HOTKEY=ctrl+winfn— Fn/Globe-Taste (macOS, empfohlen für Hold-Modus)f19— F19 (CapsLock via Karabiner auf macOS umbelegen)strg+alt+r— Windows Standard Togglestrg+win— Windows Standard Holdcmd+shift+r— Eigene Kombination
Visuelles Feedback
Das Overlay zeigt den aktuellen Aufnahmestatus mit Farben und Animationen:
Hotkey gedrückt, wartet auf Sprache
Sprache erkannt, Aufnahme aktiv
Transkription wird finalisiert
LLM-Nachbearbeitung aktiv
Text erfolgreich eingefügt
Etwas ist schiefgelaufen
Erweiterte Funktionen
LLM-Nachbearbeitung (Refine)
Aktiviere PULSESCRIBE_REFINE=true um Transkriptionen automatisch zu bereinigen: Füllwörter entfernen, Grammatik korrigieren und in Absätze formatieren.
Kontextbewusstsein
PulseScribe erkennt die aktive App und passt den Schreibstil an:
| Kontext | Apps | Stil |
|---|---|---|
| Mail, Outlook, Spark | Formell, vollständige Sätze | |
| chat | Slack, Discord, Nachrichten | Locker, kurz und knapp |
| code | VS Code, Cursor, Terminal | Technisch, Begriffe beibehalten |
| default | Alle anderen | Standard-Korrektur |
Sprachbefehle
Sprich Formatierungsbefehle während des Diktierens (erfordert Refine):
Custom Vocabulary
Verbessere die Erkennung für fachspezifische Begriffe:
{
"keywords": ["Anthropic", "Claude", "Kubernetes", "OAuth"]
}Lokaler Offline-Modus
Laufe komplett offline. Auf macOS (Apple Silicon) nutze Lightning für ~4x schnellere Transkription. Auf Windows nutze den Local-Installer mit CUDA Whisper:
PULSESCRIBE_MODE=local
PULSESCRIBE_LOCAL_BACKEND=lightning # macOS: lightning, mlx, faster, whisper
PULSESCRIBE_LOCAL_MODEL=large
PULSESCRIBE_LANGUAGE=deVoraussetzung: pip install lightning-whisper-mlx
Problemlösung
Erteile Mikrofon-Berechtigung in Systemeinstellungen → Datenschutz & Sicherheit. Auf macOS brauchst du evtl. auch: brew install portaudio
Erteile Bedienungshilfen-Berechtigung. Bei unsignierten Builds entferne und füge PulseScribe in den Bedienungshilfen-Einstellungen nach jedem Rebuild neu hinzu.
Wechsle zu Deepgram (Streaming) oder Groq. Für lokalen Modus nutze MLX auf macOS oder CUDA auf Windows.
Erteile Eingabeüberwachungs-Berechtigung in Systemeinstellungen → Datenschutz & Sicherheit.
Prüfe ~/.pulsescribe/startup.log (macOS) oder %USERPROFILE%\.pulsescribe\logs\pulsescribe.log (Windows) für Fehlerdetails.
PySide6 ist optional. Die App nutzt dann Tkinter. Für PySide6-Overlay installiere den vollen Installer neu.
Stelle sicher, dass du die Local-Variante (~4GB) installiert hast. CUDA erfordert eine NVIDIA-GPU mit installierten Treibern.
Manche Hotkeys können mit Windows-Shortcuts kollidieren. Probiere eine andere Kombination wie Strg+Alt+Leertaste. Konfiguriere in Einstellungen → Hotkeys.
CLI-Nutzung (Fortgeschritten)
Für Entwickler oder Automatisierung funktioniert PulseScribe auch als CLI-Tool:
# Clone and install
git clone https://github.com/KLIEBHAN/pulsescribe.git
cd pulsescribe
pip install -r requirements.txt
# Record and copy to clipboard
python transcribe.py --record --copy --mode deepgram
# Transcribe a file
python transcribe.py audio.mp3 --mode openai
# Start the daemon manually
python pulsescribe_daemon.py --hotkey cmd+shift+r # macOS
python pulsescribe_windows.py --debug # WindowsBereit loszulegen?
Lade PulseScribe herunter und diktiere schneller als du tippen kannst.