deep-learning

神經網路相當容易被騙到

最近有一冊白皮書發現,主要是指出神經網路並不是完美及相當容易被騙到的。在白皮書當中,研究團隊提出熟悉物品的「奇怪的姿勢」,讓神經網路去嘗試認別。結果,認別的表現是異常地差及高達百分之九十九都錯誤辨別。

白皮書原文:

https://arxiv.org/pdf/1811.11553.pdf

在現實環境,收集數據隨時會出現「奇怪的姿勢」及不盡完美的數據。再者,白皮書的作者建議使用三維數據/物件去用作機器學習,而不再只是依靠二維影像去減少錯誤的機會。

IBM - Modern Data Warehouse Example

看一下企業高層如何看待現代數據倉庫

很多技術專才都在推介用數據湖(data lake)去取代數據倉庫(data warehouse)。我們的數據科學團隊,認為一個現代化的數據倉庫應當擔起今時今日數據分析的一個重要位置。

以下有一篇來自TDWI.org的文章,分享了一家企業「黃磚」的首席執行官Neil Carson對數據倉庫的意見,主要針對相關科技及工具。

文章原文:

https://tdwi.org/articles/2019/02/08/dwt-all-ceo-qa-modern-data-warehouse-and-analytics-success.aspx

他的意見正好在多方面跟我們的數據科學專家——Samuel Sum,有一致的想法,如Hadoop。Hadoop是一個儲存大量數據的地方,但它絕對不是想像中的易於讀取及管理。事實上,一個結構化資料的儲存位置,像數據倉庫是易於給用戶讀取使用。另一方面,存取硬件是數據存取速度的關鍵。今日的固態硬碟(快閃記憶體),讓數據倉庫的存取速度,加快了數倍以上。

最後,小編個人建議可以參考Samuel Sum的個人網誌內的一篇有關數據湖的文章(Data Lake Versus Data Warehouse)

IBM -  Modern Data Warehouse Example

machine learning

機器學習–幾個關鍵

本週,我們打算分享一篇文章,帶出數個機器學習的成功關鍵。

從原文中,作者列出了機器學習的成功要素包括:

  1. 機器學習由小出發—好像其他數據分析項目一樣,開始時把範圍收窄以便有效管理。待有一定基礎後,再進一步發展。
  2. 機器學習必然建基於數據的高質量—數據是機器學習最重要的材料,故此基質素是至為決定性。
  3. 世上沒有一套通用的機器學習算法—機器本身就是去特定解決個別問題,與及算法是基於特定案例而揀選的。

 

DataVersity.net的英文原文

https://www.dataversity.net/machine-learning-transformed-data-quality-and-operational-necessities/

machine learning

Identity of you

去那兒就已經出賣您是誰

最近,哥倫比亞建築及機械工程的副教授Sharon Di,發現人的出行習慣跟他們的類型有非常大的關聯性。這項研究是依據密揭根大學交通學院(UMTRI),追蹤349輛汽車及19,130次的行車記錄得出的分析結果。

  • 長者,在一天內會去更多種類的地方
  • 勞動人口,不是上班就是回家
  • 家長,會在一天內去更多個別地方

來自InsideBigData.com英文報導

https://insidebigdata.com/2019/01/11/go-tells-vice-versa/

 

除此之外,中國大陸的騰信也發佈了有關微信數據的使用分析數據。他們發現90後是最大壓力;相反,70後的人是最輕鬆及最多空閒時間。

我們認為這些發現有很高價值,並有助於社會為未來進行規劃。不過,私隱為需要得到適切的保障,如可以把可辨別身份的數據遮罩(Data Masking)才進行任何分析活動。我們針對的是行為數據,並不太需要知道獨立個體的身份。

Identity of you

Digital-Data Driven

為數據驅動機構作準備

大數據及數據科學愈趨成熟,這的確是一個適切的時間去建立數據驅動機構。讓數據分析成為日常運作及管理的利器,對機構可以帶來卓越成效:

  1. 改善品牌形象
  2. 用更適合的內容(商品及服務)以吸引更多客戶
  3. 簡化提供的資訊讓信息更清晰
  4. 加強社交媒體的效率

企業家雜誌 (英文原文)

https://www.entrepreneur.com/article/325518

HMV「音樂無限」正是一家傳統企業的失敗例子,而要留意現時網上音樂串流已經高達34%的巿佔率。現時,還有大量人士可以用不同方式依賴音樂維生。基於互聯網發展,現時企業面對的是全球化競爭。可見,利用數據的幫助來改善生意運作會變成企業面對競爭而不可或缺的一塊。

Big Data & Analytics

數據科學趨勢2019

籍著2019年剛開始,這是適當時候去研究一下各位專家,對今年數據科學發展的展望。

 

有趣的是大部份論點都是「沒有太大驚喜」,而很大部份都已經在巿場上出現及運作。例如在海外網站Technopdiea.com的訪問中,不少大型企業的主管包括甲骨文,仍然以人工智能及機器學習為今年的重點。

Technopdiea.com的文章(英文)

https://www.techopedia.com/data-science-what-to-expect-in-2019/2/33690

 

不過,有另一篇文章,嘗試整合坊間不同人士意見,找出今年大家對數據科學趨勢的共通點。

Article by DataVersity.net (英文)

https://www.dataversity.net/data-science-trends-in-2019/

這一篇文章,有更多不同的範疇接觸到,包括了虛擬實景(Virtual Reality)及資訊保安(Information Security)。

 

總括而言,數據科學發展日趨成熟,我們正在由過去的「數據分析」踏上「智能自動化之路」。

 

data warehouse

數據湖(Data Lake)對比數據倉庫(Data Warehouse)

我們的創辦人/ 領導 – Samuel Sum最近在其網誌發佈了一篇有關數據湖(Data Lake)及數據倉庫(Data Warehouse)的文章。最近,巿場上很多人嘗試把他們的數據倉庫棄丟。不過, Samuel提出他對數據倉庫價值的論述。另一方面,他也建議一個數據湖該有的架構,而這個建議都是基於我們的專業服務團隊在真正的實踐經驗所得。

http://www.samuelsum.com/2018/12/19/data-lake-versus-data-warehouse/

Big Data Career Path

規劃您的大數據專業之路

在我們的團隊中,多名同事正努力工作求進,朝向數據科學家的路進發。今次分享一篇正正是討論如何進入大數據職場的文章。

Insidebigdata.com的英文原文:

https://insidebigdata.com/2018/12/15/need-career-big-data/

事實上,要成為一位數據科學家,的確有多不勝數的東西要學習。我們的「大哥」,也親自審視過這篇文章,並建議各個隊員都要好好讀一次。

Big Data Career Path

Megadeals VS Data Analytics

推文:麥肯錫有關大生意交易及數據分析的文章

我們時常探訪客戶去討論數據分析的價值。當中有一個地方,時常成為爭論的焦點,那是不尋常的大宗商業交易。事實上,一家好像我們的顧問公司,當中可能有一至兩單生意,足以是公司年收益的百分之三十至四十。

多數人認為數據分析,只適用於時常出現的情況,原因是應有較多數據作分析。相反地,我們過去成功擭得一些項目,正正因為我們會利用自家的指標知識庫(KPI Knowledgebase)﹑公開數據(Open Data)﹑政府統計署的公共數據等。

麥肯錫公司發表的原文:

https://www.mckinsey.com/business-functions/marketing-and-sales/our-insights/megadeals-how-data-and-analytics-can-dramatically-boost-success

麥肯錫在這文章,分享了他們的看法——就是高質素的"小"數據,還能對大生意有很大幫助。

Megadeals VS Data Analytics