部落格

EP10|老闆要會議紀錄:逐字稿工具怎麼選?


你是不是也遇過這種情境:會議錄完一大段音檔,回去才發現「要整理逐字稿」這件事超痛苦;或是 YouTube 影片想抓重點,但每次都要來回拖時間軸、邊聽邊記,效率直接歸零?

現在用 AI 語音轉文字真的方便很多:只要有音檔,可以很快變成可閱讀的逐字稿。如果你的公司或是研究單位有限制「不能把資料傳到外部平台」的話,也有「只在你的電腦作業」也就是地端的做法可以選擇。這篇文章帶你快速搞懂常見作法,讓你讀完就知道:語音辨識你該用哪一種工具、如何開始做、要注意哪些地方

為什麼不直接使用影片轉文字的 AI 工具?

先跟你說一個比較不討喜但非常重要的事,網路上有許多標示著 AI 功能的逐字稿工具,讓使用者上傳影片就直接轉成文字匯出,使用起來相當快速方便。

比較可惜的是,這些逐字稿工具雖然好用,但是很難一眼判斷它的資料政策細節。在這個 AI 時代中,我們必須要具備正確的資安素養觀念,將公司的會議音檔上傳工具時,請務必思考「這套工具會如何使用你上傳的資料」?

「它會將你的資料拿去做模型的訓練嗎?」
「你上傳的資料後續會被如何使用呢?」

很多企業願意花大錢買 AI 的企業版,通常就是為了機敏資料的保護,避免同仁不小心把公司的敏感資訊丟給 AI,變成「自己把機密送出去」。企業會花大錢做的事情一定有他的原因在的,所以,挑選逐字稿工具時真的要慎選,尤其是你要處理的資料中牽涉會議內容、研究資料、個資的時候。

⭐️ 幫大家劃重點:就算工具標榜 AI、標榜隱私,也請把「上傳的資料如何被使用」當成第一優先考量喔!

如何選用語音辨識工具?

我們繼續回到主題!選用逐字稿工具時,我們先思考兩個問題:

  • 資料限制:你能不能夠把資料「上傳到雲端」,還是只能在自己的電腦中作業?
  • 任務目的:你的任務主要是製作「音檔 / 影片字幕」,還是要撰寫「線上會議紀錄」?如果你要做的是字幕,那麼工具除了要將語音辨識成文字,還需要能夠匯出成字幕檔 (ex: .srt) 的功能。

接下來,我們以 資料限制 做區分,跟大家分享不同的工具:

🔒 資料限制|資料無機敏性,可以上傳雲端

如果你的音訊檔案是公開講座或是沒有機密資料的音訊內容,那麼把資料上傳到雲端處理會是比較快速的方法,這個情形下 Google 提供的 NotebookLM 是我覺得最方便的選擇。以下實作跟大家分享使用 NotebookLM 將音訊檔案轉出逐字稿的方法與步驟:

Step 1:進入 NotebookLM

首先開啟一個瀏覽器分頁進入 NotebookLM ,第一次登入的時候,系統會要求你登入 Google 帳號,並且會看到「 隱私與使用聲明 」,當中會提到「 若未經允許,此資料不會用於訓練 NotebookLM 」,提醒大家儘管這份聲明表示資料不會用於訓練其通用模型,但這仍然是一個受 Google 監測的環境,所以還是建議大家 不要上傳個人資料 / 機密資料 / 個人私鑰 或是機敏文件

Step 2:建立筆記本

點選「 建立新的筆記本 」並且重新命名名稱。本次實作將以《大人學》的 YouTube 影片 EP630 當 #AI 愈來愈強,你會抗拒,還是跟它一起升級?別讓沉沒成本綁住職涯選擇|大人的Small Talk 作為範例,因此可以將筆記本命名為「 逐字稿:大人學 EP630 」。

Step 3:上傳音訊資料

當新的筆記本建立完成,就可以準備上傳音訊資料了。

點選「 新增來源 」,選擇「 網站 」

接著貼上本次實作範例 YouTube 影片網址https://www.youtube.com/watch?v=bKSALiAFpXs,再按下右下角的「 插入 」

接著畫面會回到筆記本頁面,先確定左方的「 來源 」中,貼上的資料來源後方顯示打勾 ✅,才算是有上傳成功喔!

本次實作是用 YouTube 影片作為實作對象,系統會檢測 YouTube 影片是否具備語音內容或字幕,如果沒有語音內容或者是私人影片的話則會顯示匯入失敗。除了有限制必須是公開影片之外,影片需要上傳超過 72 小時才可匯入筆記本,限制會不斷調整,以 NotebookLM 公告為主喔!此外,除了 Youtube 影片,NotebookLM 也支援上傳 MP3, WAV 等類型資料作為資料來源。上傳檔案的大小上限為 200 MB。

Step 4:逐字稿完成

確定上傳成功之後,可以看到筆記本中間「 對話 」區域出現文字,這些文字是 NotebookLM 針對上傳內容所做的摘要,對於快速瀏覽長影片的核心內容非常有幫助,而我們要的逐字稿在資料來源中,點選這次上傳的影片,影片下方就可以看到由 AI 轉譯的逐字稿內容囉!

Step 5:潤稿

本次實作中的逐字稿是一句話一行呈現,每次轉譯的逐字稿格式都不盡相同,有時可能不會加上標點符號,這時我們可以直接在筆記本中請 AI 幫忙潤稿。

在筆記本中間「對話」的區塊,輸入以下 Prompt:

以下是 NotebookLM 幫忙整理過的逐字稿內容

是不是相當快速呢?NotebookLM 適合用來整理長影片或訪談內容,語音轉逐字稿的速度相當快速,對於內容的梳理也很能抓到核心重點。如果對 NotebookLM 有興趣,也可以參考另一篇部落格文章EP4|十分鐘 AI 應用-通勤 30 分鐘別浪費:用 NotebookLM,資料變成邊走邊聽的 Podcast!有更詳盡的介紹喔!

🔒 資料限制|資料有資安、機密資料,只能在自己的電腦作業

如果你的音訊檔案屬於機敏資料,那麼建議語音轉文字的過程在自己的電腦中執行,我們將以 Windows 跟 MacOS 作業系統分別跟大家介紹:

Windows 作業系統

在 Windows 作業系統中,我推薦 WhisperDesktop 這套工具進行語音辨識的作業,它是以 OpenAI 釋出的開源語音辨識模型 Whisper 為技術基礎的工具,可以想像成 OpenAI 提供了這個模型的程式碼,而大家都可以將這個程式碼改寫並放進自己需要的工具裡面,而 WhisperDesktop 是其中一個「把 Whisper 做成 Windows 桌面工具」的作品。

Step 1:下載 WhisperDesktop

首先我們要下載工具 WhisperDesktop,下載連結

這是 WhisperDesktop GitHub 下載的 Releases 連結,在這裡可以看到目前最新的版本,進入網站後在 Assets 區域中點選「 WhisperDesktop.zip 」進行下載。

下載並完成解壓縮之後,可以看到裡面有三個檔案,其中 WhisperDesktop 就是執行檔案囉!

點開 WhisperDesktop 會發現,使用 WhisperDesktop 進行語音辨識時需要提供「GGML 語言模型」,WhisperDesktop 有提供 GGML 語言模型下載

下載連結:https://huggingface.co/ggerganov/whisper.cpp/tree/main

這個網站提供了不同量級的語言模型,有 Tiny / Base / Medium / Large 版本:

  • Tiny/Base:速度極快,但精準度低,適合簡單的英文聽寫 。   
  • Medium:最推薦的平衡點,在處理帶有環境雜訊、多人對談或口音的音訊時,精確度非常高,檔案大小約 1.42GB。   
  • Large:精準度最高,但是需要極強的顯示卡與大量記憶體(超過 8GB VRAM),且處理時間較長 。

本次實作使用 Small 版本,可以在清單中找到「 ggml-small.bin 」並進行下載。建議可以下載到 WhisperDesktop 同一個資料夾,比較好做檔案管理。

Step 2:執行 WhisperDesktop

下載好 WhisperDesktop 跟語言模型之後,可以點開執行 WhisperDesktop,載入下載好的 GGML 語言模型。在 WhisperDesktop 介面點選 Model Path 右邊的三個點點,選擇 ggml-small.bin,再按「 開啟 」

Model Implementation 維持預設的 GPU,接著按下 OK,WhisperDesktop 就會開始安裝語言模型了。

Step 3:下載練習影片

本單元實作會用公開的影片資料「 2633_台灣高鐵_20251205_法說會 」作為練習。進入網站,接著對影片按下右鍵選擇「另存影片」,就可以把影片下載下來了。

Step 4:執行!

接著就要把影片交給 WhisperDesktop 作業,在 Transcribe File 選擇練習影片,畫面中幾個選項功能幫大家介紹說明:

  • Language:你要轉錄的語言,也就是影片中使用的語言
  • Transcribe File:要轉錄的檔案,也就是影片檔案
  • Output Format:要輸出的檔案格式與輸出路徑,主要兩種格式:
    • 文字檔案格式:Text file / Text with timestamps
    • 字幕檔案格式:SubRip subtitles / WebVTT subtitles

Output Format 選擇 Text file 後,選擇文字檔案要存在哪一個資料夾位置並且命名,接著就可以按下 Transcribe 執行轉錄。影片時長越長或是使用的語言模型越大,轉錄的時間就會比較久。

經過等待之後,終於完成了!轉錄作業時長跟電腦硬體性能有很大的關聯,在本次實作中,28 分鐘的影片轉錄了 41 分鐘,但同時我用另外一台性能較好的筆電測試,40 分鐘的影片轉錄時長約 4 分鐘左右,給大家參考看看囉!

Step 5:轉錄結果

點開轉出的文字檔,會發現 WhisperDesktop 使用 ggml-small.bin 模型辨識匯出的文字會依據講者的停頓進行概要地文字分段,而辨識的正確率上,錯字的比率就相對多一些,甚至會無法理解原本語句的意思

比如說影片中 00 分 13 秒處辨識轉錄出的是內容寫:

「 那我們首先非常要 讓信可以邀請到… 」

這句我怎麼看也看不懂,回到影片檢查才發現講者說的是:

「那我們首先非常榮幸可以邀請到…」

如果要提升辨識的正確性的話,可以在 Step 1 下載語言模型的步驟中選擇其他模型,但是使用更進階的模型時,需要使用相對更多的硬體性能,也會花費更多時間轉錄作業喔!

這樣就完成了轉出逐字稿的方法啦!是不是很簡單呢?

透過 WhisperDesktop 這套工具載入語言模型,就可以將音訊內容轉錄成逐字稿。接下來分享 MacOS 作業系統的轉錄方法。

MacOS 作業系統

在 MacOS 作業系統我推薦 MacWhisper,這套工具是開發者 Jordi Bruin 以 OpenAI 的 Whisper 模型以及 Nvidia 開源語音辨識模型 Parakeet 所開發的語音辨識工具。

這套工具限定 MacOS 作業系統才可以使用,接下來就一步一步帶大家操作!

Step 1:下載 MacWhisper

首先進入下載網址:https://goodsnooze.gumroad.com/l/macwhisper 

MacWhisper 有多種服務版本,其中 MacWhisper Free 就是免費版的服務,進入頁面之後選擇「MacWhisper Free」,接著點選「I want this!」

在 Checkout 頁面中,先再次確認費用是零美元 $0,接著輸入必填的信箱 Email address,再按下「Get」

它會再次詢問你是否要升級成付費版服務,選擇「Don’t upgrade」,就會看到下載的按鍵「Download MacWhisper」,就可以下載囉!

下載好的檔案會是一個 zip 檔案,解壓縮之後就是應用程式檔。

Step 2:下載練習影片

本單元實作會用公開的影片資料「 2633_台灣高鐵_20251205_法說會 」作為練習。首先進入網站,接著對影片按下右鍵選擇「另存影片」,就可以把影片下載下來了。

Step 3:開啟 MacWhisper,上傳影片

接著打開 MacWhisper 應用程式,雖然這套軟體的介面沒有提供繁體中文,但是英文介面使用起來也相當簡單直覺。點選「Open Files」將練習的法說會影片上傳,MacWhisper 會直接開始進行語音辨識,根據你上傳的影片長度影響作業的時間,可以在左上方工具列「Queue」看到執行的進度。

辨識完成之後,可以點選左邊工具列「Open」中的法說會影片,可以看到畫面中間的區域就是語音辨識的結果。

Step 4:匯出逐字稿

接著就要將辨識好的內容匯出了,在畫面上方有一個分享的按鈕,如果你的作業目的是「會議逐字稿」,那麼只要選擇 Transcript 的 txt 格式,再按下 Export 就可以完成逐字稿的匯出。

影片逐字稿就有文字檔案啦!

結語

整理逐字稿最痛苦的從來不是「不會做」,而是「每次都要邊聽邊打字、還怕漏重點」,時間就這樣被磨光。

這一篇幫大家整理了會議語音轉逐字稿的方法,不管是雲端還是本機的操作都幫大家整理好了~看到這邊的你,可能會急著想趕快用 AI 把這些文字內容請 AI 寫成一份會議記錄,Hold On! 提醒你,我們在跟 AI 對話時,除非你使用的 AI 有企業版的資料保護,否則千萬不可把個資或是公司的機敏資訊提供在指令或是上傳的檔案當中,這一步最容易不小心放入個資或公司機密呢!

跟大家分享機密資料處理的對策:資料去識別化,用 Word 或其他文字編輯工具的「替代」功能將資料做替換,常見的機敏資料去識別化範例:

  • 人名 → 【與會者 A】【主管 B】【客戶 C】
  • 公司 / 客戶名 → 【客戶公司】【合作夥伴】
  • 專案代號 → 【專案 X】
  • 金額 / 報價 → 【金額】【報價區間】或直接移除
  • Email / 電話 / 地址 / 帳號 → 【聯絡資訊】
  • API Key / Token / 私鑰 → 直接刪除,不要留任何片段

如果覺得這篇文章不錯的話,記得幫我們分享出去吧!


✔️關於 Excel 資料分析 結合 ChatGPT 的應用

Hahow 好學堂 最新課程《資料變決策!Excel X AI 升級職場數據分析力》
這堂課將結合我於企業、學校 AI 課程數百小時授課的經驗,教你如何應用 AI 優化或加速數據分析任務 ➡️ 課程傳送門

#Excel #資料分析 #ChatGPT #生成式AI

✔️關於 資料分析 與 資料視覺化

Hahow 好學堂 線上課程《資料變決策!商業圖表製作與視覺化分析的技術》
適合工作中需要接觸數據的人,讓你可以透過視覺化的手法分析數據、呈現數據、分享數據,說出好的資料故事! ➡️ 索取折扣碼優惠

#資料分析 #資料視覺化 #商業圖表 #資料故事

✔️關於 資料視覺化分析 與 Tableau

Hahow 好學堂 線上課程《資料變決策!從零上手 Tableau 大數據視覺化》
步驟式教學 Tableau 工具操作,詳細解析 Tableau 的各類實務操作過程,手把手做出專屬自己的資料視覺化成果!➡️ 索取折扣碼優惠

#資料視覺化 #商業圖表 #Tableau #大數據

本站提供關於:資料分析、資料視覺化、生成式 AI & ChatGPT、Tableau 等資訊,
歡迎 訂閱本站,取得最新訊息。