Dokumentation

Setup-Guide

Bring PulseScribe auf macOS oder Windows in unter 2 Minuten zum Laufen. Dieser Guide behandelt Installation, API-Key-Konfiguration und deine erste Diktatsitzung.

Download & Installation

Lade das neueste Release von GitHub herunter.

macOS

Verschiebe PulseScribe.app in deinen Programme-Ordner.

Für macOS herunterladen

Windows

Führe den Installer aus. Wähle Cloud-APIs (~30MB) für Cloud-Transkription oder Local (~4GB) für offline CUDA Whisper.

API-only Local

Standard-Hotkeys: Toggle = Strg+Alt+R, Hold = Strg+Win

Auf GitHub ansehen

Gatekeeper-Hinweis: Dieses Release ist ad-hoc signiert (nicht notarisiert). macOS könnte es mit "Apple konnte nicht überprüfen…" blockieren. Um es zu öffnen, führe im Terminal aus:

sudo xattr -dr com.apple.quarantine /Applications/PulseScribe.app
open /Applications/PulseScribe.app

API-Key besorgen

PulseScribe unterstützt mehrere Transkriptionsanbieter. Wir empfehlen, mit Deepgram zu starten für die beste Latenz (~300ms via Streaming).

Anbieter	Latenz	Kostenlos	Registrieren
Deepgram	~300ms	$200 Guthaben	console.deepgram.com
Groq	~1s	Kostenloses Guthaben	console.groq.com
OpenAI	~2-3s	Pay-as-you-go	platform.openai.com
Lokales Whisper	variiert	Kostenlos (offline)	Keine Registrierung nötig

Über Einstellungen konfigurieren

Öffne Einstellungen über die Menüleiste (macOS: 🎤 Icon) oder System-Tray (Windows: Rechtsklick). Alle Einstellungen können hier konfiguriert werden:

Setup—Schnellstart & Assistent

Hotkeys—Halten/Umschalten-Tasten

Anbieter—API-Keys & Modus

Erweitert—Performance-Tuning

Refine—LLM-Nachbearbeitung

Prompts—Eigene Prompts

Vocabulary—Fachbegriffe

Logs—Log-Dateien anzeigen

Alternative: Über .env-Datei konfigurieren

~/.pulsescribe/.env

# API Keys
DEEPGRAM_API_KEY=your_key_here

# Settings
PULSESCRIBE_MODE=deepgram
PULSESCRIBE_LANGUAGE=en
PULSESCRIBE_REFINE=true

Berechtigungen erteilen

PulseScribe benötigt Berechtigungen:

✅ Windows: Keine besonderen Berechtigungen nötig.

macOS erfordert:

1.
Mikrofon — Erforderlich für Sprachaufnahme.
Systemeinstellungen → Datenschutz & Sicherheit → Mikrofon → PulseScribe aktivieren
2.
Bedienungshilfen (für Auto-Paste) — Erforderlich um Text automatisch einzufügen.
Systemeinstellungen → Datenschutz & Sicherheit → Bedienungshilfen → PulseScribe aktivieren
3.
Eingabeüberwachung (für Hold-Modus) — Nur nötig wenn Fn/Globe als Haltetaste verwendet wird.
Systemeinstellungen → Datenschutz & Sicherheit → Eingabeüberwachung → PulseScribe aktivieren

Diktieren starten

Drücke deinen Hotkey und sprich. Auf macOS ist Standard Fn/Globe. Auf Windows nutze Strg+Alt+R (Toggle) oder Strg+Win (Hold).

Hold-Modus

Taste halten → Sprechen → Loslassen → Text wird eingefügt

Toggle-Modus

Hotkey drücken → Sprechen → Nochmal drücken → Text wird eingefügt

Hotkey-Konfiguration

Passe deine Auslösetaste in den Einstellungen oder via Umgebungsvariablen an:

~/.pulsescribe/.env

# Hold mode (Push-to-Talk) — recommended
PULSESCRIBE_HOLD_HOTKEY=fn

# Toggle mode (optional, in addition to hold)
PULSESCRIBE_TOGGLE_HOTKEY=f19

# Windows defaults
# PULSESCRIBE_TOGGLE_HOTKEY=ctrl+alt+r
# PULSESCRIBE_HOLD_HOTKEY=ctrl+win

Unterstützte Hotkeys

fn— Fn/Globe-Taste (macOS, empfohlen für Hold-Modus)
f19— F19 (CapsLock via Karabiner auf macOS umbelegen)
strg+alt+r— Windows Standard Toggle
strg+win— Windows Standard Hold
cmd+shift+r— Eigene Kombination

Visuelles Feedback

Das Overlay zeigt den aktuellen Aufnahmestatus mit Farben und Animationen:

Lauscht

Hotkey gedrückt, wartet auf Sprache

Aufnahme

Sprache erkannt, Aufnahme aktiv

Transkribiert

Transkription wird finalisiert

Verfeinert

LLM-Nachbearbeitung aktiv

Fertig

Text erfolgreich eingefügt

Fehler

Etwas ist schiefgelaufen

Erweiterte Funktionen

LLM-Nachbearbeitung (Refine)

Aktiviere PULSESCRIBE_REFINE=true um Transkriptionen automatisch zu bereinigen: Füllwörter entfernen, Grammatik korrigieren und in Absätze formatieren.

Kontextbewusstsein

PulseScribe erkennt die aktive App und passt den Schreibstil an:

Kontext	Apps	Stil
email	Mail, Outlook, Spark	Formell, vollständige Sätze
chat	Slack, Discord, Nachrichten	Locker, kurz und knapp
code	VS Code, Cursor, Terminal	Technisch, Begriffe beibehalten
default	Alle anderen	Standard-Korrektur

Sprachbefehle

Sprich Formatierungsbefehle während des Diktierens (erfordert Refine):

“neuer Absatz”→¶

“neue Zeile”→↵

“Punkt”→.

“Komma”→,

“Fragezeichen”→?

“Ausrufezeichen”→!

Custom Vocabulary

Verbessere die Erkennung für fachspezifische Begriffe:

~/.pulsescribe/vocabulary.json

{
  "keywords": ["Anthropic", "Claude", "Kubernetes", "OAuth"]
}

Lokaler Offline-Modus

Laufe komplett offline. Auf macOS (Apple Silicon) nutze Lightning für ~4x schnellere Transkription. Auf Windows nutze den Local-Installer mit CUDA Whisper:

~/.pulsescribe/.env

PULSESCRIBE_MODE=local
PULSESCRIBE_LOCAL_BACKEND=lightning  # macOS: lightning, mlx, faster, whisper
PULSESCRIBE_LOCAL_MODEL=large
PULSESCRIBE_LANGUAGE=de

Voraussetzung: pip install lightning-whisper-mlx

⚡ Lightning-Modus (macOS) nutzt Batched Decoding für nahezu Echtzeit-Transkription.

🪟 Windows Local-Installer enthält CUDA Whisper für NVIDIA-GPUs (~4GB).

⏳ Erster Start: Das Modell wird beim ersten Mal heruntergeladen (1-5 GB). Die App zeigt "Loading [model]..." während dieser Zeit. Danach startet alles viel schneller.

Problemlösung

Mikrofon funktioniert nicht

Erteile Mikrofon-Berechtigung in Systemeinstellungen → Datenschutz & Sicherheit. Auf macOS brauchst du evtl. auch: brew install portaudio

Auto-Paste funktioniert nicht

Erteile Bedienungshilfen-Berechtigung. Bei unsignierten Builds entferne und füge PulseScribe in den Bedienungshilfen-Einstellungen nach jedem Rebuild neu hinzu.

Transkription langsam

Wechsle zu Deepgram (Streaming) oder Groq. Für lokalen Modus nutze MLX auf macOS oder CUDA auf Windows.

Hold-Modus erkennt Tastenloslassen nicht

Erteile Eingabeüberwachungs-Berechtigung in Systemeinstellungen → Datenschutz & Sicherheit.

App startet nicht / stürzt ab

Prüfe ~/.pulsescribe/startup.log (macOS) oder %USERPROFILE%\.pulsescribe\logs\pulsescribe.log (Windows) für Fehlerdetails.

Windows: Overlay wird nicht angezeigt

PySide6 ist optional. Die App nutzt dann Tkinter. Für PySide6-Overlay installiere den vollen Installer neu.

Windows: CUDA/Lokaler Modus funktioniert nicht

Stelle sicher, dass du die Local-Variante (~4GB) installiert hast. CUDA erfordert eine NVIDIA-GPU mit installierten Treibern.

Windows: Hotkey wird nicht erkannt

Manche Hotkeys können mit Windows-Shortcuts kollidieren. Probiere eine andere Kombination wie Strg+Alt+Leertaste. Konfiguriere in Einstellungen → Hotkeys.

Brauchst du mehr Hilfe? Prüfe die Log-Dateien unter ~/.pulsescribe/logs/pulsescribe.log oder nutze Menüleiste → Diagnose exportieren.

CLI-Nutzung (Fortgeschritten)

Für Entwickler oder Automatisierung funktioniert PulseScribe auch als CLI-Tool:

Terminal

# Clone and install
git clone https://github.com/KLIEBHAN/pulsescribe.git
cd pulsescribe
pip install -r requirements.txt

# Record and copy to clipboard
python transcribe.py --record --copy --mode deepgram

# Transcribe a file
python transcribe.py audio.mp3 --mode openai

# Start the daemon manually
python pulsescribe_daemon.py --hotkey cmd+shift+r     # macOS
python pulsescribe_windows.py --debug                  # Windows

Bereit loszulegen?

Lade PulseScribe herunter und diktiere schneller als du tippen kannst.

Für macOS herunterladen Für Windows herunterladen Auf GitHub ansehen