Openrefine:免費開源資料清洗工具

Openrefine:免費開源資料清洗工具是一個幫助使用者轉換資料集的工具,優化資料的質量以便於在真實場景中使用,你的資料是雜亂無章的。錯誤會散步到你的大資料集中,無論你有多麼細心,錯誤總是存在。資料量越大,錯誤越多。正確且清晰地認識以上的現狀,於是有了資料質量的說法。

Openrefine:免費開源資料清洗工具

資料剖析Data Profiling:也叫做資料考古(Data Archeology),是資料集(Data Set)內部為達一致性、單值性和邏輯性而進行的數值質量的統計分析及評估。資料剖析是Olson於2003年提出的概念,使用分析技術來發現正確的、結構化的、有內容、有質量的資料。換句話說,它是評估你的資料和資訊的當前狀態以及包含了多少錯誤的方法。

資料清洗Data Cleaning:是嘗試通過移除空的資料行或重複的資料行、過濾資料行、聚集或轉換資料值、分開多值單元等,以半自動化的方式修復錯誤資料的過程。資料清洗是一個反覆的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對於是否過濾,是否修正一般要求客戶確認。

IDTs:Interactive Data Transformation tools,互動資料轉換工具,它可以對大資料進行快速、廉價的操作,使用單個的整合介面。

OpenRefine就是這樣的IDT工具,可以觀察和操縱資料的工具。它類似於傳統Excel的表格處理軟體,但是工作方式更像是資料庫,以列和欄位的方式工作,而不是以單元格的方式工作。這意味著OpenRefine不僅適合對新的行資料進行編碼,而且功能還極為強大。安裝問題

猜你喜歡

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *