人工智慧 機器學習 AI 假訊息 自然語言處理

運用NLP技術分析語意理解意圖 人工智慧防制惡意散播

社群充斥偽誤資訊成危害 自動偵測讓謠言止於AI

目前假訊息充斥,透過人工智慧將大量的數據經過機器學習及深度學習,使電腦能夠判別訊息的真偽,防止不法人士惡意散播。再結合「假訊息多層式智能檢測系統」的處理,就能更上一層樓自動判斷真假訊息,讓社會更臻於完善。

自從社群平台開始蓬勃發展,Facebook、Twitter在社群平台上逐漸變成大多數人接受新聞消息的主要來源之一,小至私人生活中的秘密,大至國際情勢,皆可透過社群平台接收到各種資訊。因此,網際網路的進步促使任何人能夠在網際網路上發表任何言論及消息,更加強了假訊息的影響。

如聯合國教育科文組織(United Nations Education Scientific and Cultural Organization,UNESCO)所述:「假訊息是個老議題,新科技卻火上澆油」,生活當中隨時隨地都能夠透過網際網路輕易地傳播各式各樣的訊息,大大地提升了言論的自由性。然而,科技的進步猶如一把雙面刃,帶來豐富資訊的同時,卻也會因不當使用而造成不可抹滅的傷害。

在本文中,將會探討「真假訊息的定義」、「人工智慧應用於真假訊息的判斷」、「假訊息多層式智能檢測系統」技術,並且深入地討論及分析真假訊息相關的議題。

真假訊息的定義

在沒有網路的時代,有句諺語是這麼說的:「謊言環遊了半個地球的時候,真相還在穿鞋」。如今,資通訊網路也因此推波助瀾,加速了假訊息的傳遞以及影響。並且,平日生活中通常是在沒有居心的情況下接收消息,又在沒有真偽意識的情況下吸收消息,更進一步地在沒有驗證的情況下分享消息。這些真假消息在潛移默化之中影響了一般人的思維及決策,並且造成網路時代真假消息滿天飛的亂象。

接著,就來討論真假訊息的5V特徵、假訊息的範疇,以及內容農場(Content Farm)。

真假訊息的5V特徵

在網路發達的時代中,不只大數據具有5V的特徵,對於真假訊息,亦是因為資通訊網路的發展,發展了屬於真假訊息特有的5V特徵,如圖1所示,詳細內容如下:

圖1  真假訊息的5V示意圖。

‧Volume(數量):真假訊息的數量大小。其訊息的數量會影響事件的廣泛程度,是真假訊息的主要特徵指標。

‧Variety(種類):真假訊息的種類和多樣化。其包括原始訊息、竄改訊息、惡意假訊息、錯誤假訊息等。

‧Value(價值):真假訊息的價值。其訊息的價值質量亦會影響事件的嚴重性。

‧Velocity(速度):真假訊息的增長、傳播速度。傳播的速度越快,處理速度也應該要快,對於快速增長、傳播的真假訊息,應該要即刻處理。

‧Veracity(正確性):真假訊息的準確性和可信賴度。即數據的質量,對於真假訊息的準確度亦是現今真假訊息的重要特徵指標。

假訊息的範疇

「Misinformation」和「Disinformation」在英美系語言之中,有明確代表這兩個面向的詞彙,聯合國國際文教組織(UNESCO)的定義中,Misinformation是並非有意圖造成傷害的錯誤的訊息,而Disinformation為刻意傷害某人、團體、組織或國家的錯誤的訊息。

從英美體系字典的字義來看,Misinformation與Disinformation很類似刑法中區分故意或過失,在於是否有意圖;本質都是散播錯誤的訊息,但差別在於意圖為何。

然而,在中文詞會表達之中僅出現假訊息一詞,如圖2所示,且包含Misinformation和Disinformation兩者。因此,更需要釐清這兩者的差異之類型以及犯錯之輕重,對於傳遞者的犯罪意圖以及危害嚴重性分門別類,以便處理真假訊息的問題時能夠對症下藥。

圖2  假訊息範圍示意圖。

內容農場

「內容農場(Content Farm)」是指有心人士謀圖廣告或個人利益,利用各種合法或非法的手段來大量並且快速地產生內容相似的網路文章,內容農場的文章內容通常簡稱農場文,農場文的文章特色為標題聳動,如圖3所示。

圖3  常見內容農場文章標題示意圖。

然而,農場文的內容品質不穩定,時常會出現錯誤訊息、錯誤字體。而且,內容農場的文章通常為業餘的寫手所撰寫,往往因為追求高傳播量,寫手們每天為了產出大量的文章通常會複製貼上相似的文章內容,其文章內容通常是抄襲、竄改而成的,通常會促使假訊息的生成。

人工智慧應用於真假訊息的判斷

人工智慧可以運用於許多地方,經過機器學習及深度學習之後,電腦能夠訊息檢索、影像辨識、文本分析、情境判斷、情緒識別等。若想要訓練電腦能夠判斷真假訊息,就要先讓電腦能夠學會「閱讀」文字、「理解」文章所表達的意思,進而「感受」文義所表達的情感。

因此,需要使用自然語言處理(Natural Language Processing,NLP),讓電腦獲得理解人類語言的能力。自然語言處理能應用在許多領域,如圖4所示,電腦獲得理解人類語言的能力後,便能夠在數以萬計的文字中找尋到其中的關鍵字,並且理解其文字所表達的意境、翻譯不同國家的語言,更能透過語音辨識將聲音轉化成文字。

圖4  自然語言處理常見的應用示意圖。 (圖文重製,參考來源:https://aiacademy.tw/what-is-nlp-natural-language-processing/)

在自然語言處理之中,與過往人類與電腦溝通的程式語言不同,必須教會電腦學會「斷詞處理」和「理解詞的意思」。「斷詞處理」意指將完整的句子分段成一個個詞彙,例如「小明喜歡小美」,那將斷詞成:主詞:小明、動詞:喜歡、受詞:小美,如圖5所示。

圖5  斷詞處理示意圖。

將機器學習完斷詞處理之後,便要開始學習「理解詞的意思」,透過將字詞轉成為詞向量,如圖6所示,詞向量的運用類似人類理解一個詞彙,經由其他相似詞去推測,也就是物以類聚的概念。最後,計算向量的相似遠近程度,便能幫助電腦判斷語境的情感。

圖6  字詞轉換詞向量示意圖。

台灣將自然語言處理運用於真假訊息的判斷甚多,除了有台灣事實查核中心LINE訊息查證、MyGoPen、蘭姆酒吐司、CoFacts真的假的、趨勢科技防詐達人等現成的人工智慧查核真假訊息的平台外,還有中研院資訊所、語言所成立一個跨所合作的CKIP Lab中文詞知識庫小組,如圖7所示,他們提供了繁體中文的自然語言處理的模型及工具,以及最新的開源斷詞、詞性標注、實體辨識系統等。這些工具、平台皆廣泛運用在判斷真假訊息實務上。

圖7  CKIP Lab中文詞知識庫小組官方網站(https://ckip.iis.sinica.edu.tw/ )。

善用假訊息多層式智能檢測系統

透過假訊息相關學術文章調查後,會得知許多人接收到片面或是被灌輸的訊息,進而造成片面不實訊息集團性轉發。台灣人工智慧實驗室」創辦人杜奕瑾表示:「社交平台有同溫層現象,所以可能把類似意見的人圈在一個同溫層後,餵食不實訊息。」因此,需要利用真人加上人工智慧所組成的「假訊息多層式智能檢測系統」,如圖8所示,大量地減少假訊息所造成的危害。

圖8  假訊息多層式智能檢測系統示意圖。

「假訊息多層式智能檢測系統」先運用人工智慧-自然語言處理的語意分析、語意理解處理,再配合行政專業以及刑事調查人員組合成一個多層式的智能檢測系統,由外層到內層包含標題檢測、意圖檢測、行政專業檢測及刑事調查檢測四個層次:

標題檢測

將訓練完成的人工智慧,運用於檢測標題相似性以及語文情境是否屬於誇大不實的標題,如圖9所示,以便判斷是否為內容農場所大量產生之標題。

圖9  內容農場文章「標題檢測」。(擷取自臉書)

意圖檢測

運用自然語言處理,語意感知的功能,透過相關文章及上下文比對參照,檢測其文章所表達的意圖,如圖9所示,以利判斷是否為惡意負面假訊息的文章。

行政檢測及教育宣導

官方處理假訊息有四項策略:「識假、破假、抑假、懲假」,如圖10所示,其中「識假」和「破假」為本階層重要的工作項目。經由行政部門結合專家學者所組成的團隊合力識假,並將正確的訊息及觀念傳達及教育給民眾,以達到破除假訊息的功能。人民是社會的主要資訊接受者,解決此問題的根本,還是得回溯到對於假訊息的判斷能力、「真偽識讀」的能力,使大家都能大腦思考後過濾,才是防治假消息的最佳良方。

圖10  官方處理假訊息有四項策略示意圖。

刑事調查及司法懲處

對於假訊息的刑事調查,根據目前法律規定,網路散布假新聞、假消息,刑事責任部分,任意危害他人名譽可能構成刑法毀謗罪及公然侮辱罪;造成群眾恐慌及煽動他人可能構成恐嚇公眾罪或煽惑他人犯罪等。此外,在疫情嚴峻期間,散布或傳播不實疫情消息亦將觸犯刑事上的特別條款。調查完畢後,將會由司法機關依據違法事實裁判及懲處,達到「抑假、懲假」的結果。

情境案例說明

阿翰是一位憨實的普通上班族,在剛剛接獲醫院的健康檢查報告,得知自己疑似患有腫瘤,在百般煩惱的期間,剛好從朋友的群組中獲得一則關於治療癌症的最新有效妙方的連結,如圖11所示,其訊息的標題是「大藥廠打死也不願說的秘密 原來抗癌可以那麼便宜……檸檬是一個神奇的植物,可殺死癌細胞。功效10,000倍強於化療」。

圖11  情境模擬示意圖1。

在焦慮不安感日益擴增的背景下,阿翰也感受到這則訊息的重要性,但由於日常工作的繁忙之下,阿翰在未經查證消息的來源以及消息的正確的情況下,將這則訊息轉發到他的朋友群組。阿翰的家人以及朋友也因為這則訊息也感受到驚奇,並也轉傳給其他們的親朋好友,在這一傳十,十傳百的情況之下,這則訊息很快地就被快速地傳播出去。

經過了一個禮拜以後,食用檸檬可以殺死癌細胞的消息已經傳遍了全台灣,甚至連新聞媒體也都爭相報導。這引起了國人的搶購檸檬的情況,因此國家政府機關也開始展開一系列的調查動作。

首先使用「假訊息多層式智能檢測系統」的標題檢測與意圖檢測,運用台灣事實查核中心檢查網路上是否有大量的相關帶風向的內容農場標題出現,如圖12所示。接著,行政機關經手判斷檢測的結果,召集專家學者討論,並立即詔告民眾真相,最後交由執法單位調查其犯罪主謀及團隊,將調查的證據交由司法機關判決。

圖12  情境模擬示意圖2。

因為阿翰為本次事件的嫌疑人,經行政以及刑事機關確認以及調查後,發現阿翰並沒有犯罪動機及意圖,且透過台灣事實查核中心確認為假消息後,廣發澄清文宣,積極傳達正確觀念及消息給民眾,防止民眾因誤信誤傳未經證實之訊息而徒生恐慌。

結語

面對這個假訊息滿天飛的時代,到底該如何在龐雜的資訊中正確分辨訊息的真偽呢?這時透過「假訊息多層式智能檢測系統」來大幅降低假訊息所造成的危害,經過每一個層次嚴格且縝密的審查機制,方能使假訊息無所遁形,不攻自破。除此之外,更該提倡人們必須盡可能提升自我媒體識讀能力,面對假訊息亦具有思辨能力,而非一味相信媒體或大眾言論,如此一來,假訊息檢測系統的成效大幅提升,亦能促進社會的發展及和諧。

<本文作者:社團法人台灣E化資安分析管理協會(ESAM, https://www.esam.io/)國立屏東大學多媒體實驗室(Multimedia Lab)2018年創立,由楊政興教授率領成員們致力數位多媒體應用與研究,其領域包含但不限於互動媒體設計、多媒體安全、資料庫安全、數據分析及影像處理。>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!