2008年Jeff Hamerbatcher與DJ Patil circa分別在FACEBOOK、Linkedin領導全球第一支資料科學團隊,全球首次有「資料科學」的概念出現。至此資料科學越來越被廣泛流行,並應用到公衛、市場、金融、社會等各個領域。 在台灣也有許多公司提供做資料科學的工作機會。因此本團隊以「資料科學」的關鍵字搜尋104求職網的資料,用R爬下2000多筆資料,並用程式、資料科學概念等關鍵字篩出所餘600筆資料。當中處理了詞彙相似與縮寫、C和R出現頻率等問題,再針對關鍵字於該筆工作資訊出現頻率做判斷與分析,得出我們的分析結果。
影片錄製
資料爬取與分析
資料爬取和分析
網頁製作
Elsa演算法
在台灣許多資料科學的場合都頻繁地出現大數據的詞彙,此為台灣在資料科學領域中最常用來說明、解釋資料科學的詞彙,於求職資訊中可見一斑。其次為資料探勘、機器學習、人工智慧等。
SQL為台灣最頻繁使用的資料庫之一,與Excel並列前二,顯現台灣市場在形塑資料科學領域時,基礎資料量以Excel就足夠處理。然而,相較國外則認為Python與R為資料科學領域中的主流工具,可見國內外對資料科學的定義有所差異。
在文字探勘、機器學習與資料探勘領域中,主要以Python、SQL與JAVA作為工作職位的要求,而相對的Excel則有明顯反指標的趨勢;而R於機器學習領域中,出現的比例又相對高出許多。
在深度學習領域中,也是以Python、JAVA、SQL為主要工作職位要求,另外Hadoop、Linux、Spark主要只為深度學習領域所需要。而此圖亦顯示Excel的比較更低,可見深度學習相對其他領域,所需的工具技能更為特殊、專門。
此圖顯示機器學習與Python、C、C++、JAVA、R要較高的關聯性;而Excel與其他工具相比,與資料科學領域的相關性較低。
Torch、Theano和Caffe之間之所以有較高的相關性,是導因於其為深度學習特有的工具,經常被一起提起;其次Spark與Hadoop亦有高相關性,也是因為為深度學習所用;而Excel那欄全為負值。