2023年2月25日 星期六

「中文字幕自動換行」使用手冊:中文字幕自動化工具,影片上字幕的絕佳幫手

「中文字幕自動換行(SRTSoEasy)」使用手冊



  您是否曾經花費許多時間來創建完美的字幕,卻感到煩惱呢?您寫的稿件可能上萬字甚至數萬字,一句一句去斷行,重複的動作可能需要進行上千或數千次。在當今這個時代,這實在是一件沒有必要的苦差事。不僅傷眼,也可能使手神經受傷,得不償失!
  現在,有一個簡單而有效的解決方案!「字幕自動換行」可以幫助您快速斷行文字,並讓您的字幕創建更加容易。
  使用這個軟體,您只需花費一兩秒鐘的時間即可自動將文章換行(斷行)。並可使用其中的「長句搜尋」迅速找到那些無法藉由標點符號自動斷行的長句,隨時進行改寫與斷句。而且,即使您在應該保留還是去除句尾的句點或問號等感到疑惑與遲疑,也沒有問題,因為我們的軟體可以自動去除或保留它們。只要重新按下「自動斷行」就能再次觀看斷行的結果。這不僅可以節省您大量的寶貴時間與精力,還可以提高您的創作效率。
  最好的部分是,將斷行後的文本導入剪映之後,使用剪映的 AI 語音和文字匹配功能。只需幾秒鐘的時間,您就可以自動創建一個字幕檔案(.srt檔案),使您的影片更加容易閱讀和理解。而全部從稿子斷行到導入剪映,製造出一個字幕檔案,整個過程,可能不到五分鐘!試想,您之前曾經花多少冤妄時間在這種沒有必要的事情上呢!
  2023年開始,生成式AI進入大爆發的時代,技術日新月異,一張圖片生成視頻的技術日漸成熟,AI視頻大爆發的時代即將來臨。想要批量製造視頻賺取被動收入,「字幕換行」對普通人而言,無疑是其中一道門檻。但使用我們的軟體之後,這道門檻便不復存在。可以讓您節省無數寶貴的時間和金錢,同時提高您的工作效率。
  如果您是一位視頻工作者,並正在尋找一種簡單、有效又快速的方法來創建完美的字幕,那麼我們的「字幕自動換行」將是您的最佳選擇。現在就立即購買,並體驗更加高效和舒適的工作方式吧!
  「字幕自動換行」適用於已經有稿子的視頻!而這對於多數視頻創作者來說,是非常有利的工具。

開發緣起

  其實就是我在製作第一個視頻時就發現文字斷行很浪費生命,加上之前就有開發文書處理軟體的經驗,對於怎麼處理文本有很豐富的經驗。因此便迅速構思了整個插件,一開始先用C#寫了office word 的插件,但因為考慮到要架設網站等麻煩事情。於是又花了幾天時間,用google 的Apps script寫了支援google docs的插件。但因為插件審核者始終不能理解這個軟體的用處,因此無法過審。我也懶得再浪費時間,並終止了開發。後來有讀者來信想要購買這個「插件」,加上今年(2024年)AI視頻必然大火(一張圖生成一個動態視頻+AI語音),自己的頻道再過幾個月也將重新開始錄製視頻,因此就花了點時間改成了Java版本。原本插件的簡易斷行也加入了一點點智能判斷(插件簡易版並不判斷詞彙,Java版已經導入詞彙庫)。同時也修改了部分規則,並提供更多與文本處理有關的小工具與功能。

  關於中文資訊處理相關軟體的開發,目前主要有兩個計畫:一是打算將之前個人自己使用的中文校對演算法重新設計後開發成docs 以及 word 插件。二是終極版的手機預測型輸入法:「超自然輸入法」的發布。如果您覺得中文資訊處理工具軟件仍然非常欠缺或現有的產品很難使用,因此願意資助個人進行研發,可考慮捐款支持:
個人patreon:朔雪寒

功能說明

  「中文字幕斷行」將斷行符號分為兩級,其中第二級斷行符號為「,」(全形)是寫死的,第一級斷行符號則主要是「。!?;:」,是使用者可以隨意增減的。(全半形)
  程式斷行時先使用一級符號斷行,如果使用者想在斷行的同時保留這個符號,則可以在「一級保留符號」欄位輸入這個符號,那麼在斷行的時候,程式會將這個符號予以保留。否則,斷行後所有指定的「一級斷行符號」都會被刪除(因為一般字幕都不需要這些符號)。
  二級斷行符號雖然寫死,但仍保留使用者調整的空間,也即「二級斷行最小長度」,如果使用者覺得只要小於一定的字數長度就不要斷行,那麼程式將根據這個長度不進行斷行。譬如:「在軍事戰略中,包圍戰是一種有效的戰術手段」這一句含標點符號「,」,其長度是20。如果使用者在「二級斷行最小長度」的欄位填入任何小於20(但大於13)的長度,那麼這一句都會被斷行成:
在軍事戰略中
包圍戰是一種有效的戰術手段(13字)
  如果使用者想要遇到「,」就全部斷行,那麼只要把「,」加入「一級斷行符號」即可。
  根據當前的文本普遍現狀,沒有標點符號的長句是不可避免的,但仍舊屬於少數,這方面即使用人工智慧根據詞彙來斷句,也不一定能令人滿意,且可能會造成使用者更多的困擾。因此,為了彌補無法自動斷句「無標點的長句」的情況,本插件提供「長句搜尋」的功能,使用者只要在斷好句的文本上,按下「長句搜尋」,同時設定好「長句搜索最小長度」,即可針對文本中的長句進行搜尋,如此一來可以迅速幫使用者找到大於一定長度的長句,讓使用者可以更客觀的對長句進行符合自己審美觀的斷句。

使用方式






欄位介紹

一級斷行符號:
  (預設)。!?;:(範圍介於0至10個符號)

一級保留符號:
  (預設)(空)(看使用者想要保留什麼,譬如常見的連續驚嘆號!!!只要在這裡寫上一個!就會在斷行後對所有驚嘆號進行保留。「一級保留符號」當然是針對「一級斷行符號」來說的,如果「一級斷行符號」沒有這個符號自然不用在「一級保留符號」寫上。)

二級斷行最小長度:
  (提供範圍)1~50(決定二級斷句的標準,大於這個數字才會被用「,」斷行。)

最小擴展長度:
  如果使用者指定在15個字斷行,但很多句子是16、17字的,如果強制斷行,勢必造成文本嚴重割裂。所以這個最小擴展長度就是用來解決這個問題,如果使用者設定是2,那麼15+2=17,如果句子剛好只有>15且<=17,那麼都會在容許範圍之內,而不會被強制斷句。這個值的容許範圍是「二級斷行最小長度」的1/5,譬如二級長度設為15,這裡就不能超過3,但可以為0。

長句搜索最小長度:
  (提供範圍)10~99(決定所要搜索的句子長度的最小值)

區隔字數
  由於剪映有5000字限制,因此類似於一萬字以上的大稿件就需要切分後的文字按照一定大小分別複製。有鑑於此,本軟體提供自動區隔的存檔方式。使用者只要在這裡輸入所要區隔的字數,譬如三千。那麼程式就會將整個文字段落,按照不超過三千的字的要求進行切分。只要使用者選擇匯出檔案,就能將切分好的文字按照設定的區隔字數分開存檔。檔案會存放在本程式所在的目錄之下,以當天的「日期+區隔順序+內含字數」為檔名進行存檔。使用者只要把檔案依次放入剪映即可完成視頻的製作!

智能斷句:
  主要利用詞彙進行模糊判斷,譬如「包圍戰是一種有效的戰術手段」共13字,如果使用者設定最小斷行長度為10,則會在「戰」斷行,如此就會把「戰術」切斷,造成創作者與視頻觀看者的困擾。智能斷句利用所附詞彙庫(2024E.txt)的詞彙進行比對,如果被切斷,則視情況內縮或外擴。以這一句為例會被斷成:
包圍戰是一種有效的(9)
戰術手段(4)
  以不超過最小長度(10)為主。
  目前的智能斷句還非常陽春。如果使用者非常多,會考慮寫得更加智能。

詞彙庫:
  詞彙庫中的詞彙只有2-5的長度,因此長度限制是5。如果使用者將超過長度5的詞彙加入,是不會起作用的。

主板的幾個按鈕

標點規範化
  標點不規範的問題,有時候是輸入法引起的,有時候是使用者複製了多種來源的文字之後引起的。由於本程式只針對規範化的標點如「,:;?!。」以及一堆書名號、篇名號等進行處理,而事實上在當前的網路文本中普遍存在這些符號的其他形式,一般肉眼難以察覺。如果使用者想要統一使用同樣的標點,就能使用這個功能,讓標點統一成常用的形式。

刪除空白行
  如果使用者貼到文字區的文字有空白行,使用這個功能就會將空白行全部刪除。

中文規範化
  通常中文使用者輸入文字的正確性受限於輸入法,輸入法常常會將不規範用字混入詞彙庫,有些異體字,一般肉眼難以察覺。但使用者想要使用搜尋功能時就可能找不到。譬如:「群、羣」這兩個字是異體字,前者是常用字、規範用字,因此使用這個功能,文本區中所有「羣」都會被規範為「群」。同時會在目錄下匯出一個檔案:「異體字規範化修改字元存檔.txt」,使用者想知道程式改了什麼,只要查看這個檔案即可。

文本規範化:
  使用者在輸入時,有時候並不會嚴格遵循某種規則或格式,但又希望文本能有一個統一的格式,譬如阿拉伯數字與中文之間都間隔一個半形空白。那麼使用這個功能就會將文本中所有符合的句子進行規範化。讓每一個阿拉伯數字與中文之間都只存在一個半形空白。

區隔表格
  按下區隔表格,程式會彈跳出一個按照區隔字數區隔的表格,收錄每一個區間的第一個句子,使用者點選這個句子的表格,文字區的相關部分就會反白顯示。區隔表格如下:


  其中有「匯出全部」與「匯出區間」兩個選項。「匯出全部」即是按照區分的段落進行單獨存檔,假設區分為五個段落,就會在目錄下存成五個檔案。「匯出區間」則只儲存使用者點選的區間文字成單獨檔案。

複製文字區
  即是針對文字區的文字進行「全選」與「複製」的快捷按鈕。

下拉式選單

檔案:

        開啟檔案:目前只支援UTF16格式的純文字檔案。提供開檔的功能主要是為了讓使用者方便把匯出的檔案打開而已。使用者還是請使用複製貼上的方式將所要處理的文本貼到文字區之中。
  存檔:會直接將目前文字區的文字進行存檔。
  區間分批存檔:依據使用者設定的區隔字數,分批存檔。

其他工具:

  刪除最前與最後的標點符號
  譬如切割後的句子前面有、號或後面有、號,使用者想要刪除,直接使用這個功能,將「、」號填入彈跳視窗之中。程式即會幫使用者將文本中所有句子的前後、號刪除。

  將單一符號成行的句子與上一個句子連結
  有時候使用者的對話是以。」這樣的格式結尾的,如果是這樣的話,由於「」點被消除了,那麼將獨自一行。這時候使用者使用這個功能,程式就會把」與上一個句子進行連結。

  開閉符號字串連結:
  由於中文文本中常有使用引號、雙引號、書名號、篇名號內含一個名詞的情況,如果要保留整體性不切開,那麼勢必只能把整個包含開閉符號的字串當成一個新詞,如此一來可能會觸碰很多判斷規則,且也很容易超越詞彙庫的限制長度5。但使用者又想要保留完整性,因此給出了這個功能。目前只提供五種常用的開閉符號的連結選項,其作用範圍只有上下兩個句子。因此如果遇到非常複雜的情況,使用者可以多調用幾次即可。



  點選後會彈跳出開閉符號視窗,這時候選擇想要保持完整性的符號,那麼當句子中有被切開成上下兩句的情況時,程式就會把兩句連結起來。
譬如以下的例句,假設斷成:
民眾黨總統候選人柯文哲發出《
孫子兵法》動員令
  當使用此功能後,兩個句子就會被連接起來。

補充

  將斷行後的文字存成純文字檔案,打開剪映,點選其左邊側欄「智能字幕」功能,右邊欄位會出現「識別字幕」、「文稿匹配」。


  選擇「文稿匹配」,選擇儲存斷行文本的文字檔,按下「開始匹配」。剪映的人工智慧就會開始根據影片中的聲音與斷行後的文本進行匹配,產生.srt字幕檔。使用者可以利用剪映的播放功能進行字幕與影片的檢查。


  最後只要按下右上角的「導出」,即可在相應的資料夾中獲得結合字幕的影片與單獨的字幕檔。使用者將含或不含字幕(可選擇)的影片上傳後,再將這個srt字幕檔上傳,只要觀眾打開cc字幕,就能看到相關的字幕。

(讀者提醒:官網下載的剪映才有文稿匹配,如果是apple商店下載的國際版,是沒有文稿匹配的功能的。


這個影片上字幕的過程全部只花了不到五分鐘。新的Java單機版操作視頻,過一陣子再行公佈。

終止販售