AssemblyAI
AssemblyAI Components允許您將強大的語音 AI 模型應用到您的應用程式中,用於以下任務:
- 轉錄音訊和視訊檔案
- 格式化轉錄稿
- 生成字幕
- 將 LLM 應用到音訊檔案
如需 AssemblyAI Components使用的 AssemblyAI 功能和功能的詳細資訊,請參閱 AssemblyAI API 文件。
先決條件
-
AssemblyAI 帳戶 和 AssemblyAI API 金鑰。
在所有需要 AssemblyAI 金鑰的 AgentBuilder Components中的 AssemblyAI API Key 欄位輸入金鑰。
-
選用:要使用 LeMUR,您需要付費的 AssemblyAI 帳戶,因為免費帳戶不包含 LeMUR。
Components

AssemblyAI Start Transcript
此Components允許您提交音訊或視訊檔案進行轉錄。
提示:您可以 Freeze 此 Component 的路徑以僅提交檔案一次。
-
輸入:
- AssemblyAI API Key:您的 API 金鑰。
- Audio File:要轉錄的音訊或視訊檔案。
- Speech Model(選用):選取模型類別。預設為 Best。如需詳細資訊,請參閱語音模型。
- Automatic Language Detection(選用):啟用自動語言偵測。
- Language(選用):音訊檔案的 語言。如果停用自動語言偵測,可以手動設定。 如需支援的語言代碼清單,請參閱支援的語言。
- Enable Speaker Labels(選用):偵測音訊檔案中的說話者以及每個說話者說了什麼。
- Expected Number of Speakers(選用):如果啟用 Speaker Labels,設定預期的說話者數量。
- Audio File URL(選用):要轉錄的音訊或視訊檔案的 URL。可以替代 Audio File 使用。
- Punctuate(選用):應用標點符號。預設為
true。 - Format Text(選用):應用大小寫和文字格式化。預設為
true。
-
輸出:
- Transcript ID:轉錄稿的 ID
AssemblyAI Poll Transcript
此Components允許您輪詢轉錄稿。它每隔幾秒檢查一次轉錄稿的狀態,直到轉錄完成。
-
輸入:
- AssemblyAI API Key:您的 API 金鑰。
- Polling Interval(選用):輪詢間隔(以秒為單位)。預設為 3。
-
輸出:
- Transcription Result:已完成轉錄稿的 AssemblyAI JSON 回應。包含文字和其他資訊。
AssemblyAI Get Subtitles
此Components允許您以 SRT 或 VTT 格式生成字幕。
-
輸入:
- AssemblyAI API Key:您的 API 金鑰。
- Transcription Result:Poll Transcript Components的輸出。
- Subtitle Format:字幕的格式(SRT 或 VTT)。
- Character per Caption(選用):每個字幕的最大字元數(0 表示無限制)。
-
輸出:
- Subtitles:包含 SRT 或 VTT 格式字幕的
subtitles欄位的 JSON 回應。
- Subtitles:包含 SRT 或 VTT 格式字幕的
AssemblyAI LeMUR
此Components允許您使用 AssemblyAI LeMUR 框架 將大型語言模型應用到語音資料。
LeMUR 自動將轉錄稿作為額外上下文攝取,使將 LLM 應用到音訊資料變得容易。您可以將其用於總結音訊、提取洞察或提問等任務。
-
輸入:
- AssemblyAI API Key:您的 API 金鑰。
- Transcription Result:Poll Transcript Components的輸出。
- Input Prompt:提示模型的文字。您可以在此欄位輸入提示,或將其連接到 Prompt Template Components。
- Final Model:執行壓縮後用於最終提示的模型。預設為 Claude 3.5 Sonnet。
- Temperature(選用):用於模型的溫度。預設為 0.0。
- Max Output Size(選用):輸出大小上限(以權杖為單位),最多 4000。預設為 2000。
- Endpoint(選用):要使用的 LeMUR 端點。預設為 "task"。對於 "summary" 和 "question-answer",不需要提示輸入。如需詳細資訊,請參閱 LeMUR API 文件。
- Questions(選用):您的問題的逗號分隔清單。僅在 Endpoint 為 "question-answer" 時使用。
- Transcript IDs(選用):轉錄稿 ID 的逗號分隔清單。LeMUR 可以對多個轉錄稿執行操作。如果提供,則忽略 Transcription Result。
-
輸出:
- LeMUR Response:生成的 LLM 回應。
AssemblyAI List Transcripts
此Components可以用作獨立Components來列出所有先前生成的轉錄稿。
-
輸入:
- AssemblyAI API Key:您的 API 金鑰。
- Limit(選用):要檢索的最大轉錄稿數量。預設為 20,使用 0 表示全部。
- Filter(選用):按轉錄稿狀態篩選。
- Created On(選用):僅取得在此日期(YYYY-MM-DD)建立的轉錄稿。
- Throttled Only(選用):僅取得節流轉錄稿,覆寫狀態篩選器
-
輸出:
- Transcript List:包含轉錄稿 ID、狀態和資料等資訊的所有轉錄稿清單。
Flow過程
- 使用者輸入音訊或視訊檔案。
- 使用者也可以輸入 LLM 提示。在此範例中,我們想要生成轉錄稿的摘要。
- Flow提交音訊檔案進行轉錄。
- Flow每隔幾秒檢查一次轉錄稿的狀態,直到轉錄完成。
- Flow解析轉錄結果並輸出轉錄的文字。
- Flow還生 成字幕。
- Flow應用 LLM 提示來生成摘要。
- 作為獨立Components,可以列出所有轉錄稿。
執行轉錄和語音 AI Flow
-
手動建置 Flow或匯入預建置的 JSON 檔案:
- 建議:下載 AssemblyAI 轉錄和語音 AI Flow JSON,然後 將 Flow匯入 AgentBuilder。
- 建立空白 Flow,然後將先前描述的Components新增到您的 Flow中,並按照 Flow圖所示連接它們。
-
在所有需要金鑰的Components中輸入您的 AssemblyAI API 金鑰(Start Transcript、Poll Transcript、Get Subtitles、LeMUR、List Transcripts)。
-
為 Start Transcript Components選取音訊或視訊檔案。
選用:在將檔案新增到 Start Transcript Component 後,執行並 Freeze Component,這樣無論您執行 Flow 多少次,都只會提交檔案一次。 要執行此操作,點擊 Run component 以預載檔案,然後點擊 Show More 並選取 Freeze 以鎖定結果。 後續 Flow 執行使用 Freeze Component 的快取輸出。
-
透過點擊 Parser Components上的 Run component 來測試轉錄。確保指定的範本是
{text}。執行一個Components也會執行所有上游Components以及選取的Components,然後停止 Flow執行。 在此情況下,Start Transcript 和 Poll Transcript Components位於 Parser Components的上游。 如果您 Freeze 了 Start Transcript Component,Flow 會發送來自 Start Transcript 的快取輸出,執行 Poll Transcript Component 以取得轉錄結果。 檢查 Flow日誌或檢查 Parser Components的輸出以查看轉錄文字結果。
-
要生成字幕並執行完整 Flow,點擊 List Transcript Components上的 Run component。
自訂
Flow可以透過以下方式自訂:
- 修改 Start Transcript Components中的參數。
- 修改 Get Subtitles Components中的字幕格式。
- 修改 LeMUR Components的輸入的 LLM 提示。
- 修改 LeMUR Components中的 LLM 參數(例如,溫度)。
疑難排解
如果您遇到問題:
- 確保 API 金鑰在所有需要金鑰的Components中正確設定。
- 要使用 LeMUR,您需要升級您的 AssemblyAI 帳戶,因為這不包含在免費帳戶中。
- 驗證 Flow中的所有Components是否正確連接。
- 檢查 AgentBuilder 日誌中的任何錯誤訊息。
- 檢查 AssemblyAI API 文件。
- 聯絡 AssemblyAI 支援。