header image for PTT ID Profiling

PTT ID Profiling

網路上的不實資訊、網軍操作帶風向的狀況層出不窮,批踢踢實業坊 (PTT) 的政治類看板, 比起其他看板,帶風向的情形更加嚴重,網路上已經有很多專家利用爬蟲工具,自行搜尋分析出活動異常的 PPT 使用者帳號。本計畫希望能網羅各方資源之外,也能開發出套完整的開源工具,讓使用者自行析判斷誰是誰非。

PTT 的影響

PTT 自 1995 年創站,其獨特不限制主題和多元的管理機制、以及秉持非營利、自由使用的理念,讓 PTT 快速成為全台灣最活躍的 BBS(Bulletin Board System,電子佈告欄系統),並在 Telnet BBS 已經幾近消失的現代,仍然在台灣持續保持熱度和影響力。
根據數位時代的報導,PTT 目前擁有超過 2 萬個分類看板,每天有超過 2 萬篇文章更新,從八卦、娛樂、運動、政治、文學、旅遊、軍旅與網購無所不包,註冊帳號 150 萬,尖峰時段超過 15 萬人同時在線,族群則多集中在 18 ~ 35 歲,whopost 更從大數據分析了媒體、政府單位也都是常用 PTT 發言的族群,PTT 可說是台灣最有影響力的網路社群。
在網路媒體新起的時代,電腦、手機可隨時存取網路,年輕族群多半已不再透過電視新聞吸取新知,轉而透過網路文章和報導,來獲得知識資訊。傳統新聞媒體近年早已紛紛轉型網路媒體,社群媒體如 Facebook, Plurk, Instagram 等等的影響力已經超乎人們的想像。
PTT 正是在 Facebook, Instagram 等社群媒體在台灣發跡之前,最受歡迎、歷史最久的社群媒體,早期一般人並不認為 PTT 上的輿論能轉換成實體的力量施壓,但歷經洪仲丘事件與 318 學運、330 反服貿遊行之後, 許多媒體、政客開始注意到 PTT 引導輿論的力量,可能引領風向、引起議題,甚至可以影響政局。
近年更因為國際間網路攻防戰、網軍的興起,民眾所看到的新聞早已經不確定是不是真的,虛擬網路世界的身份已經幾乎不在真實,透過網路拍賣可以馬上買到一個 PTT 假帳號掩蓋身份,誰是說真的、誰又是說假話要擾亂視聽?2012 年「BBS 鄉民的正義」早已點出網路輿論所帶來的真相蒙蔽危機和對人的影響,2015 年藝人楊又穎更因為網路的謾罵選擇輕生,其他透過網路互罵、提告,把網路世界和真實世界混淆的案例層出不窮,釐清社群媒體的真相和亂象,儼然成為當今最重要的課題。

我們能做什麼?

Microsoft 加入共享 Linux 相關開源技術的 Open Invention Network,被視為近年來認同開放原始碼軟體的成功的眾多行動之一,Linux, Android, LibreOffice 等等開源軟體已經用各種形式充斥在我們的生活中。開源軟體除了能夠被快速檢視、快速更新的優點之外,其在快速能被散播及再利用的特點,正是我們所需要的。
而要對 PTT 的發言進行大量資料分析,資料的正確、如何比對,也是很重要的。做出軟體,抓取所需資料之後,將資料用開放資料的格式公開出來,提供第三方做資料比對,以彰顯其正確性,因此,資料的開放性也是我們需要的。
2015 年,PTT 鄉民們愛用的 Mo PTT,一個能夠快速用手機登入 PTT 的 APP,被爆出屏蔽掉了某些附帶廣告的訊息。此舉引發鄉民抗議,即使是大家看到會馬上關掉的惱人廣告,也不能夠在使用者不知情的情況下蒙蔽住,這大大影響了使用者使用網路的自由。
這個事件也告訴呼應我們前述的三個重點:
  • 網路自由是不可以被任意剝奪的、真相是不能夠任意被竄改的。
  • 惟有開源,才是資訊安全、能夠被信任的軟體和資料。
  • 任何一方持有的專屬資源,是不能夠完全被信任的,資料走向開放才是正確的道路。
開源,正是我們所秉持的精神,也是這個世界所需要的。無論是程式碼、授權方式、資料,長久被專屬持有,遂不見其公正、公平與公開,也就不能被大眾長期信任。因此,如果我們要有一個工具,能夠分析 PTT 或其他社群網站輿論、新聞的真實性,我們需要的是一個開放的軟體,一串開放的資料,不受任何限制,讓人自由去分析、驗證,判斷誰是誰非。所以我們開創了這個專案,將分析資料的工具、步驟、原始資料都開放出來,供需要的人取用。