多年來做網路技術研究的人,大概從來沒有想過這一天是以這種形式到來。昨天Facebook的F8會場上,Facebook宣布推出一種新的技術標準〈叫做Open Graph API〉與新的資料政策,為語意式網頁〈原文叫Semantic Web〉的到來揭開了序曲。然而我非常好奇到底有多少了解語意網技術的人,內心對Facebook此決定沒有感到一絲害怕。我非常敬佩的國外專業科技網誌ReadWriteWeb作者Marshall Kirkpatrick,在新文章自陳,他對於Facebook新政策的感覺是:這太嚇人了〈This is scary〉。
我想我可能沒辦法鉅細靡遺地跟所有讀者解釋這完整過程是怎麼一回事。原因在於,Semantic Web一直處在資訊學院的科學研究殿堂,看似艱深的內容讓大眾一直敬而遠之,甚至連我自己也只是對此一知半解(我研究領域也不是這個)。所以當Facebook今天邁向這一步的時候,很多人一時之間也搞不懂這是怎麼一回事。
一句話,Facebook正在試圖制定未來的網頁標準,包括你的個人資訊在網路上的應用方式。
習慣了網路生活的各位,你可能已經覺得現在的Google很方便了。但事實上,Google還是有很多事情做不到。譬如,當你想要找你家附近、票價低於199元的早場電影有哪些,你把這樣的句子丟到Google,就是查不出來。有一些學者認為,這並不是Google不好,而是網頁標準(HTML)本身的限制。簡單來說,如果你按右鍵看這個網頁的原始碼,再把原始碼的字義翻成中文,你可以看出它的標準用途只是描述網頁長相而已:
<網頁>
<標題> </標頭>
<內文> </內文>
</網頁>
它的標準沒有告訴你,這個網頁裡面貼了什麼資訊,描述的是什麼東西:是電影時刻表?是一篇讀書心得?還是什麼?Google固然非常了不起,但它能做的就是盡量從這個模糊不清的標題與內文做分析,找出重要的關鍵字而已。
為了解決這個問題,於是有人在標題裡面塞
<標題><資訊敘述: Mr. Friday的文章 /></標題>
這樣的標籤進去。然而,這樣的資訊還是太薄弱。雖然註明作者的名字,可是Mr. Friday是誰啊?Google可認不出來。全世界這麼多人都可以取這樣的筆名。
所以,學術界,尤其是WWW之父Tim Berners-Lee,大力鼓吹下一代的網頁表準應該要內建”語意”,像這樣子:
<網頁>
<標題>
<文章作者: Mr. Friday。個人資料來源 http://xxx/MrFriday />
<文章時間: 西元2010年4月22日 />
<主要描述內容: 貓。貓的定義網址 http://xxx/Cat />
</標頭>
<內文></內文>
</網頁>
以上只是個簡單的爛範例,但我想任何一台電腦都能從標準中,判斷得出來,這是一篇由我寫的,關於貓的一篇心得文。
這樣做的主要目的,就是要讓所有的電腦都讀得懂,到底這篇文章在說什麼。而且更重要的是,裡面透過了連結的方式,把「Mr. Friday」與「貓」,串連了起來。而且「Mr. Friday」與「貓」,都可以各自找到ㄧ個網址,描述這兩個東西是什麼。
透過這樣的方式,任何一個種搜尋引擎,都可以非常確切的知道,我在西元2010年4月22日,寫了一篇關於貓的心得。未來有人在搜尋「有寫過貓的心得文的人」的時候,就可以確切的反推出「Mr. Friday」。換句話說,每張網頁,都定義了一些「個體」間相互連結的關係。然後,請想像這個條件無限擴展下去。所有人在網路上的每一個活動:誰在網站上推薦過什麼書籍,這本書的來源是哪裡,印刷廠的所在位置在哪裡…。
以上是語意網〈Semantic Web〉的最基本概念。Semantic最重要的精神,是要透過這樣的’我-貓’意義連結,重新建構整個網路,最後做出這樣的網路關係:(詳細內容可見RWW去年對Tim Berners-Lee的訪談)
在Tim Berners-Lee想像的藍圖中,最後會邁向這一步:
為什麼最後會長出花呢?這裡可以參考Saturday去年寫過的這一篇網路時代:從資料、資訊到知識:
簡單舉例來說,我們今天知道了每一班火車的發車時間,這是原始[資料];把每一班火車的發車時間彙整起來,我們就有了火車時刻表這個[資訊];更進一步地,像 Google Transit 這樣的服務可以進一步根據時刻表告訴我們,從 A 點到 B 點,車該怎麼搭,路該怎麼走,對我們來說就可以說是取得了[知識]。
從這樣的一個觀點來看,Google 在做的事情其實再明白不過,那就是把全世界的資料整理起來,並透過搜尋及其他的方式呈現這些資訊給使用者。也就是我們前面提到的[資料]-> [資訊]這件事情。Google 在這邊已經做得很好了,也因此發展成了今天這樣的一個龐大企業。
既然「資料 -> 資訊」這件事情 Google 已經做得很好了,很明顯很多網路新創事業現在是往「資訊 -> 知識」的方向在走,換個說法,就是一些垂直網站的興起,比如說台灣專門蒐集美食資訊的 iPeen 網,比如說收集好康資訊的 DigWow,都是專門在整合較為深入和專門的資訊。或者更明顯的例子,就是 Yahoo!奇摩的知識家,在中國則是 Google 的天涯問答或是百度的知道。
如果說 Google 是聚合和整理資訊的話,那麼下一步無疑是整理和聚合知識,在這方面做得好的,無疑就是明日之星的好網站。不幸地是,雖然 Google 用了許多人工智慧和網路技術去達成了整理資訊的目的,在整理知識和產出知識這方面,在技術上卻是難如登天,人工智慧目前還不足以漂亮地解決整合知識和產生知識的許多問題。所以目前市面上看到的網站,在整理知識方面都是需要使用者的貢獻,這也是那些問答網站現在的經營方式,也代表了人類之於電腦目前尚無法被取代的地方。
而語意網,就是力圖根本地從網頁標準進行革新,讓網路上的每一個網頁,都能夠代表某些具體的意義。而透過這些網頁的連結關係,就從根本上代表了邁向整理知識的第一步。
然而,雖然語意網的目標是如此崇高,但是多數人根本就聽不懂這是要做什麼,也因此這樣的概念雖然被WWW之父:Tim Berners-Lee稱為Web 3.0,但卻一直塵封在資訊學系的殿堂裡面。
所以,我根本想不到Facebook竟然會以如此激烈的方式,讓整個網路產業踏向語意網〈Semantic Web〉。
昨天,Facebook宣布推出Social Graph API。我真是驚得呆了。這就是語意網的標準啊。這很好….但是,你知道Facebook要做什麼嗎?
他們打算要讓全世界的網頁,都邁向語意網。可是,語意網一直沒有很統一的標準,所以….Facebook就要自己訂一套標準讓大家遵守。而大家為什麼遵守?因為…
因為你一旦遵守了,你就可以獲得全世界Facebook網友的資料啊。
換句話說,Facebook打算拿全世界網友的隱私,成全他們的未來十年二十年的網路霸權啊。而且坦白說,成功率不低…。
讓我們來看看Facebook自己在官方部落格是怎麼說的吧:
This next version of Facebook Platform puts people at the center of the web. It lets you shape your experiences online and make them more social. For example, if you like a band on Pandora, that information can become part of the graph so that later if you visit a concert site, the site can tell you when the band you like is coming to your area. The power of the open graph is that it helps to create a smarter, personalized web that gets better with every action taken.Facebook之所以能這樣做,就在於他們把他們的意圖,包裝成像這樣的用途:Facebook讓你可以到更多網站「讚」一下、如何安裝Facebook Like按鈕在自己的網站上,讓網友們「讚」一下?。
下一代的Facebook平台把用戶當成是網路的中心。它能強化你上網時的社交體驗。例如,如果你喜歡某音樂網站上的某個樂團,(按:然後按下FB在該網站提供的讚、或是分享按鈕)這層關係會被記憶住,未來當你登入某演唱會網站時,該站就可以告訴你:”嗨!你(在Pandora上按過)喜歡的這個樂團,現在要在你家附近巡迴演出了喔!透過Facebook 推出的 Open Graph標準,網路的體驗可以更加個人化。
Facebook提供了幾個按鈕,讓各個網站、部落格安裝。讀者經過的時候按下「讚」按鈕之後,就可以把這篇文章分享到Facebook上。
聽起來跟現有的分享按鈕差不多。但是你知道嗎?當你在學著幫自家部落格裝上讚按鈕的時候,在自家網站上打的:
- <meta property="og:title" c />
- <meta property="og:image" c />
這些就是Facebook自己定義語意網語法。看懂這兩行沒?第一行描述這個網頁標題叫做「The Rock」,第二行則提供了描述The Rock的圖片。
隨著FB按鈕的推出,全世界將會有數以百萬計的網頁首度置入了語意網語法。你可知道?Facebook除了最簡單”title”與”image”兩種標籤之外,還有people、place、business各式各樣的標籤。接下來,Facebook應該會大力鼓勵,建議大家有空的話把其他的欄位可以填的也填一填,搜尋引擎找文章的時候會更準喔。
這代表什麼?這是全世界迄今為止最大量的Semantic語法安裝計畫,數量將會大到讓Google、Yahoo、Bing都無法忽視,最後只好採用Facebook的語意網標準。你可知道為什麼Yahoo為什麼願意跟Bing攪和在一起?因為Bing過去幾年對語意式網頁的搜尋研究,讓Yahoo意識到這可能是能夠扭轉現今搜尋市場頹勢的關鍵。而誰也沒想到,Facebook竟然有可能是最廣泛採用的語意網〈Semantic Web〉標準制定者。
這是多大的野心。坦白說,我應該為Facebook喝采。但我沒有辦法,因為我意識到隨之而來的隱私問題。Facebook在隱私問題向來惡名昭彰。
當使用者在看到各家網站紛紛冒出的Facebook讚按鈕的同時,恐怕並不會意識到,”這會把你的資料公開給其他參與了Facebook的網站”。雖然Facebook的各項隱私設定都是可以關掉的,但是他們往往是預設全開,關閉的按鈕藏在層層選單裡面。前一陣子Google Buzz與Gmail的惡夢,更告訴我們:很多使用者根本連隱私權設定在哪都不曉得。
對了,Facebook還同時宣布修改他們的使用規範-
任何網站從Facebook API取得的資料將可以無限期保留在自家電腦裡。
也就是說,以後你在網路上的各種活動,只要是FB經手的,都可以任由各家網站使用。永久性地。
而我實在無法不去想像,這些資料若被惡意使用是怎麼回事。
節錄我剛剛在Twitter上寫的幾句話:
當你登入FB後,逛到任何支援FB新API的網站〈如CNN、IMDB〉,他們都會知道「你」來了。當你在 IMDB上對一部快上映的影片說「讚!」,所有的網站都會知道!你下次再逛到atmovies的時候,他就會說Hey你在IMDB上說讚的影片現在上院線了喔!
前一推換句話說就是:當你在網路商店上對某產品說「讚!」,所有的網站都會知道!你下次再逛到釣魚網站的時候,他就會通知你說:嘿!你上次在某某商店買的東西結帳有問題,請打XXX電話查詢…。
我最在意的其實是semantic web的到來啊,而且這個標準竟然是操縱在fb手中。facebook根本就不是任何國家或政府,一般個人有什麼能力去影響fb的政策?!而且他還掌握的是最關鍵的個人資料啊!
Facebook手中擁有的個人資料超過上億。如果這些資料被其他網站惡意使用,那將會是怎樣的世界?
很抱歉,我實在無法不去想壞的那一面。要完全避免這件事,除非叫大家都不要裝Facebook按鈕、看到任何FB提供的讚按鈕都不要按、以後開Facebook時不可以同時開其他網頁,否則別的網站會去讀Facebook,知道你的個人資訊??這怎麼可能?我們自己恐怕都做不到了。
我完全沒想過Tim Berners-Lee口中的Web 3.0 (語意網),與餐廳、農場遊戲商Zynga口中的Web 3.0 (社交網路)會以這種方式交會在一起。證明了我的目光實在短淺。
各位讀者,我知道MMDays長期寫作下來,累積了很多專業的讀者。我非常希望,我今天在TechCrunch、ReadWriteWeb、Mashable看到的東西,全部都是我解讀錯誤。請在留言區,證明我的觀點完全錯誤。請證明我完全是杞人憂天,或是認知與現實有極大出入。
From: mmdays