上次寫了一篇Nuance Dragon Anywhere,相信有人很想知道中文是否有類似的軟體可使用呢。所以今天來介紹的是”訊飛語記”,這是由總部在中國大陸深圳地區的一家語音識別技術廠商科大訊飛所推出的APP產品。這個產品核心也是應用了STT(Speech to text)的技術來做到即時將聲音轉成文字的效果,並且也內建了OCR圖像識別功能。
順帶一提,科大訊飛在手機APP端總共提供了五個應用軟體。分別是: 訊飛輸入法、訊飛語記(今天要介紹的)、訊飛聽見、訊飛有聲、訊飛文檔。由於這篇主要要呼應”能隨時隨地做會議紀錄、做文章”的主題延伸,所以挑選了訓飛語記作介紹,對於其他的應用功能之後會另篇說明。
這一套軟體基本上所有功能都免費,但是進階版的功能會更多。裡面也有一部分是付費功能。目前支援的是簡體中文,還沒有支援繁體中文。
那麼我們一樣整理一下官方列出的產品特點
訊飛語記的特點
- 聲音轉文字輸入
- 錄音速記
- 外部錄音檔轉寫
- OCR拍照識別
- 多國語言同時翻譯
- 專業領域識別引擎
- 多端同步編輯
- 一鍵翻譯筆記
- 朗讀筆記
1. 聲音轉文字輸入
即時將聲音轉成文字稿,這裡要特別寫一下他於介面上的語言選擇功能有滿多選項,主要分為兩大類。一類是直接以說話者的語系輸出,一類是將說話者的語系又進行了翻譯才輸出。可以參考下表我另外寫了類型的欄位。
這邊看到他的選單功能挺有意思的,果然是中文語系的人設計的。我看到英文(中式發音)及英文(歐美發音)這兩個功能我笑了。他很清楚英文除了英式英語、美式英語,還有一種叫做中式英語ㄟ XDDD。反而是真正應該區分的英式美式沒有區分。並且中文只有普通話一種,這個應該也不用我解釋了,他們認為只有一種普通話。
我只測試了普通話、閩南話,以及中翻英。測試的效果放在後面提供參考。
| 語言功能選單 | 輸入的聲音 | 輸出的文字 | 類型 |
| 普通話 | 普通話 | 中文 | 原說話語言輸出 |
| 英文(中式發音) | 英文(中式發音) | 英文 | 原說話語言輸出 |
| 英文(歐美發音) | 英文(歐美發音) | 英文 | 原說話語言輸出 |
| 粵語 | 粵語 | 粵語 | 原說話語言輸出 |
| 四川話 | 四川話 | 四川話 | 原說話語言輸出 |
| 上海話 | 上海話 | 上海話 | 原說話語言輸出 |
| 閩南話 | 閩南話 | 閩南話 | 原說話語言輸出 |
| 中翻英(即時翻譯) | 普通話 | 英文 | 翻譯 |
| 英翻中(即時翻譯) | 英文 | 中文 | 翻譯 |
| 中翻韓(即時翻譯) | 中文 | 韓文 | 翻譯 |
| 中翻俄(即時翻譯) | 中文 | 俄語 | 翻譯 |
以下為聲音轉文字的實測影片(使用普通話測試)
這邊附上我測試時用的讀字稿以及轉寫出來的文字,讀字原稿的內容來自skyscanner的這一篇文章。閩南話有一點慘不忍睹我就不放了,有興趣的人可以自行下載來玩。
讀字原稿
日本一直是台灣人最熱衷的旅遊目的地之一,原計劃今年春季陸續開放觀光旅遊,但由於COVID-19疫情再度緊張,迫使日本政府改變原開放政策,全面禁止外國人以觀光為目的入境。或許不少人迫切的關心著何時才能出國旅遊?何時才能去日本?幾時解封?台灣人現在可以去日本嗎?2021年可以去日本旅遊嗎?Skyscanner為你整理了一系列關於2021日本旅遊的常見問題,為你輕鬆評估現在日本的旅行風險、入境要求及隔離檢疫訊息!
轉寫稿(我將與期望不同的字標記黃色),這裡保留原轉寫的簡體字不做翻譯了
日本一直是台湾人最热衷的旅游目的地之一,原计划今年春季陆续开放观光旅游,但由于kobe19,疫情再度紧张,迫使日本政府改变原开放政策,全面禁止外国人以观光为目的路径或许不少人迫切的关心着何时才能出国旅游,何时才能去日本?何时解封,他能现在可以去日本吗?2021年可以去日本旅游吗?Sky scanner为您整理了一系列关于2021日本旅游的常见问题,为你轻松评估现在日本的旅游风险路径要求及隔离检疫信息。
準確率 = 1 – (7) / (170) = 95.58%
我的準確率計算方式於Nuance Dragon Anywhere中有說明過,這單純是我個人計算方式不代表官方數據。
補充說明,在這一段出現了COVID-19。像是這樣的最新熱詞通常語音引擎廠商會自己納入詞庫中優化不需要我們手動處理。目前看起來他們還沒有納入這個詞,或許過一陣子再測試就會出現了。或是你可以手動將它設定為自訂義詞也可以的。
2. 錄音速記
錄音速記跟聲音轉文字基本上是相同的,但是他多了將你的聲音錄製下來。這個會適合像是新聞作家或會議紀錄的使用。像我自己以前的會議習慣就是會將整場都錄下來,然後到公司之後重聽一次並做會議紀錄。聲音檔可以做為留存,假設自己覺得轉出來的文字不正確,或者是日後有需求都可以回去對照聽原始音檔。
但由於我記錄的是我自己的聲音,對於會議中多人談話的效果如何還沒有實際測試過。
以下為錄音速記功能的實測影片
這邊附上我測試時用的讀字稿以及轉寫出來的文字,讀字原稿的內容來自聯合新聞網的這一篇新聞。
讀字原稿
宏碁基金會及Cheers雜誌共同主辦的第四屆「龍騰微笑智聯網創業競賽」,在歷經超過半年的激烈競爭與評審團實際走訪的評選過程,校園組及國際組得獎名單已正式出爐,並於23日以線上視訊的方式舉辦頒獎典禮,包含基金會董事長陳俊聖、宏碁集團創辦人暨榮譽董事長施振榮、競賽評審召集人北科大特聘教授李達生等多位嘉賓齊聚線上,以視訊向優秀的頒獎隊伍給予勉勵及祝賀。
轉寫稿(我將與期望不同的字標記黃色),這裡保留原轉寫的簡體字不做翻譯了
宏基基金会及确实杂志共同主办的第4届龙腾微笑智联网创业竞赛,在历经超过半年的竞争激烈与评审团实际走访的评选过程,校园组及国际组得奖名单已正式出炉,并于23日以线上视讯的方式举办颁奖典礼,包含基金会董事长陈俊胜,宏基集团创办人暨荣誉董事长施振荣,竞赛评审召集人北科大特聘教授李达生等多位嘉宾齐聚现象,以视讯向优秀的颁奖队伍给予勉励及祝贺。
準確率 = 1 – (2) / (158-2) = 98.71%
我的準確率計算方式於Nuance Dragon Anywhere中有說明過,這單純是我個人計算方式不代表官方數據。
補充說明,在這一段測試字稿中有出現姓名。姓名是比較容易轉寫結果與期望不同的。可透過他的自訂詞功能來改善。我在增加了自定詞之後,上面的陳俊聖就轉寫正確了。
3. 外部錄音檔轉寫
這個功能支援將你已經有的音檔作轉寫,有可能你是使用錄音筆或其他任何形式,想要透過這工具做轉寫,那麼就可以將檔案轉入訊飛速記APP中。
- 在手機語音備忘錄: 可以點選分享將錄音檔案傳送到訊飛速記APP
- 錄音檔在聊天軟體中: 點選用其他應用程式打開,然後選擇訊飛速記APP開啟
- 其他: 假設檔案在電腦,需要傳送到任一個通訊軟體上,然後再到手機選擇用訊飛速記開啟。
那麼我實際將手機裡面的語音備忘錄傳送到訊飛速記,傳送的速度是滿快的,並且也直接轉成了文字了。
這個外部錄音檔案轉寫是需要額外收費的,費用會依照音檔的長短。1分鐘收費0.33人民幣,未滿一分鐘依照一分鐘計費。目前提供的支付方式為: 微信及支付寶。
錄音轉寫檔案支援格式:mp3、wav、m4a 。 檔案不可以超過1GB、時間5小時內。
以下實測外部檔案轉寫
我已經用IPhone在語音備忘錄錄了一小段音檔,在該錄音檔案點選…開啟功能選項
這裡點選Share
從應用程式中選擇訊飛語記(如果沒有找到往右邊移動點選更多去查看所有APP)
這裡會開啟訊飛語記APP,可以選擇先存到筆記本或是要直接轉寫。我們選進行外部錄音轉寫
這裡會提示轉寫的限制條件,點選知道了進行下一步
音頻檔案上傳需要一點時間,接著會出現價格計算畫面。
我的音檔是1分鐘43秒,所以他使用兩分鐘價格計算。總共0.66人民幣。
在點選了去支付後會出現選擇微信支付或是支付寶的畫面,我稍早用微信支付完成了另一個音檔的轉寫
付款後會跳回來APP,這裡點選下面的按鈕”已完成付款”
然後會開始進行轉寫,轉寫後出現以下畫面。提示你可以在我的訂單中找到這一個轉寫的資料
我們回到我的訂單,會看到剛剛轉寫的資料了。
這個外部檔案轉寫的效果其實是與即時轉寫效果差不多,我就不特別附上測試影片了。
4. OCR拍照識別
OCR功能不多做說明,其實這已經發展非常成熟也有很多的開源資源可以使用。只是在提到轉寫文字一般都會提到圖像識別,科大把這功能也一起納入了他們軟體功能裡面。
不囉嗦,下面直接影片測試吧
5. 多國語言同時翻譯
我很喜歡這個功能,在他沒有提供繁體中文的前提下這是讓我想要用他的原因之一。除了剛剛前面介紹的即時將聲音轉寫出來,他支援即時將聲音做翻譯之後再寫出字搞。或許你有寫英文的需求,但是英文程度可能不是特別好。這時候就可以用他的中譯英功能,直接說出你的文字讓他幫你做翻譯。
6. 專業領域識別引擎
這個就是我前面所提到的”熱詞”,一般語音識別軟體都會提供的。由於語音識別軟體所優化的是通用性用詞,對於某些特殊領域他們無法一一納入,就算是都納入了也容易會打架。所以這可以完全的視你個人領域、以及你常用的詞來做優化。這樣轉寫出來的結果就會更好。
7. 多端同步編輯
這有點像是共同管理的概念。只要一個客戶註冊帳號,你可以在不同的裝置上用同樣帳號登入,達到多裝置維護。
8. 一鍵翻譯筆記
剛剛前面有介紹,他有提供即時的音檔做翻譯。但也可能你一開始是想要轉寫原語言字稿,後面又有了翻譯的需求。這時候就可以透過一鍵翻譯,將字稿作後製翻譯的動作。目前支援的是中轉英或是英轉中。
9. 朗讀筆記
這是使用了TTS(Text to speech)功能在裡面,假設你人在外面不方便用看的,想要聽自己的筆記檔案。就可以使用這個功能。他會將你的筆記念出來。目前提供了一個女聲及一個男聲的選擇。以非商業用途來看,兩個聲音的選擇我認為是足夠了。你還可以自己調整他的語速快慢。
以下提供測試影片
補充說明: 朗讀功能的英文撥放效果不特別好,有一點卡卡的。科大訊飛的產品還是中文相對成熟,英文不是他們強項。
安裝訊飛語記
於App Store輸入讯飞语记就會看到
整體來說,他的辨識率算是滿高。轉寫的效能上速度稍比Nuance Dragon Anywhere慢一些。我認為他在整合翻譯功能算是很棒的設計。
如果你還想看英文的STT工具,可以參考這一篇AI應用-Nuance Dragon Anywhere (Voice-To-Text工具)。
