OpenAI Realtime API

Rozmawiaj z modelem OpenAI Realtime w milisekundach — dwukierunkowy dźwięk i tekst przez jedną sesję WebSocket, sterowane z Delphi/C++Builder.

TsgcWSAPI_OpenAI

WebSocket client for the OpenAI Realtime API — full session lifecycle, function tools, audio frame streaming and transcription events.

Klasa komponentu

TsgcWSAPI_OpenAI

Protokół

OpenAI Realtime API

Platformy

Windows, macOS, Linux, iOS, Android

Edycja

Standard / Professional / Enterprise

Upuść komponent, ustaw klucz API, rozmawiaj

Połącz z TsgcWebSocketClient, ustaw OpenAI.ApiKey i OpenAI.Model, następnie przekazuj dźwięk lub tekst i nasłuchuj zdarzeń odpowiedzi.

uses
  sgcWebSocket, sgcWebSocket_API_OpenAI;

var
  WSClient: TsgcWebSocketClient;
  OpenAI: TsgcWSAPI_OpenAI;
begin
  WSClient := TsgcWebSocketClient.Create(nil);

  OpenAI := TsgcWSAPI_OpenAI.Create(nil);
  OpenAI.Client := WSClient;
  OpenAI.OpenAI.ApiKey := 'sk-...';
  OpenAI.OpenAI.Model  := 'gpt-realtime';

  WSClient.Active := True;

  // send a text turn
  OpenAI.ConversationCreateMessageText('Hello', 'user');
  OpenAI.ResponseCreate;
end;
// uses: sgcWebSocket, sgcWebSocket_API_OpenAI
TsgcWebSocketClient *WSClient = new TsgcWebSocketClient(this);
TsgcWSAPI_OpenAI *OpenAI = new TsgcWSAPI_OpenAI(this);
OpenAI->Client = WSClient;
OpenAI->OpenAI->ApiKey = "sk-...";
OpenAI->OpenAI->Model  = "gpt-realtime";

WSClient->Active = true;
OpenAI->ConversationCreateMessageText("Hello", "user");
OpenAI->ResponseCreate();

Co jest w środku

Opakowuje bramę WebSocket OpenAI Realtime jako typowany komponent Delphi z pomocnikami sesji, konwersacji i dźwięku.

Cykl życia sesji

SessionUpdate stosuje ustawienia modalities, voice, instructions, input_audio_format, output_audio_format i turn_detection do aktywnej sesji Realtime.

Elementy konwersacji

ConversationCreateMessageText i ConversationCreateMessageAudio przekazują treści użytkownika/systemu; ConversationItemDelete i ConversationItemTruncate przeformowują bieżącą historię.

Strumieniowanie dźwięku

InputAudioBufferAppend przekazuje ramki PCM (zakodowane base64), InputAudioBufferCommit kończy turę użytkownika. Dźwięk wyjściowy przychodzi jako zdarzenia response.audio.delta.

Wywoływanie funkcji

Zadeklaruj narzędzia w SessionUpdate; argumenty przychodzą jako zdarzenia response.function_call_arguments.delta, wyniki wracają przez ConversationCreateFunctionCallOutput.

Wykrywanie aktywności głosowej

VAD po stronie serwera (turn_detection: {type: server_vad}) automatycznie wykrywa koniec mowy — komponent dostarcza każdą fazę jako osobne zdarzenie.

Nagłówki uwierzytelniania

Komponent wstrzykuje nagłówki Authorization i OpenAI-Beta: realtime=v1 podczas handshake WebSocket. Połącz z TsgcWebSocketClient_WinHTTP na Windows dla TLS zarządzanego przez system.

Specyfikacje i źródła

Autorytatywne źródła API implementowanych przez ten komponent.

Dokumentacja i wersje demo

Deep-link do dokumentacji komponentu, gotowy do uruchomienia projekt demonstracyjny i pobranie wersji próbnej.

Pomoc online — API_OpenAI Pełna dokumentacja właściwości, metod i zdarzeń tego komponentu.
Wersja próbna — sgcWebSockets Pobierz pakiet próbny i zacznij strumieniować dźwięk i tekst Realtime do swoich aplikacji Delphi.
Dokument techniczny (PDF) Funkcje, szybki start, przykłady kodu dla Delphi i C++ Builder oraz odniesienia do źródeł pierwotnych — tylko ten komponent.
Podręcznik użytkownika (PDF) Kompleksowy podręcznik obejmujący każdy komponent biblioteki.

Gotowy, aby strumieniować OpenAI Realtime?

Pobierz bezpłatną wersję próbną i dodaj dźwięk i tekst AI na żywo do swoich aplikacji Delphi.