Bad Data 技術手冊
什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。 從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。 本書涵蓋許多主題,包括: .測試你的資料,來看它是否準備好被用作分析 .將電子試算表轉換為可被使用的表格 .處理在文字資料中隱藏的編碼問題 .開發一個成功的網頁抓取機制 .使用NLP工具來揭露線...
Otros Autores: | |
---|---|
Formato: | Libro electrónico |
Idioma: | Inglés |
Publicado: |
GoTop Information, Inc
2013.
|
Edición: | 1st edition |
Ver en Biblioteca Universitat Ramon Llull: | https://discovery.url.edu/permalink/34CSUC_URL/1im36ta/alma991009631012506719 |
Sumario: | 什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。 從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。 本書涵蓋許多主題,包括: .測試你的資料,來看它是否準備好被用作分析 .將電子試算表轉換為可被使用的表格 .處理在文字資料中隱藏的編碼問題 .開發一個成功的網頁抓取機制 .使用NLP工具來揭露線上評論的真實情緒 .提出可能會影響你的分析的雲端運算議題 .防止會阻礙資料分析的政策 .使用系統性的方法來分析資料品質 |
---|---|
Descripción Física: | 1 online resource (264 pages) |
ISBN: | 9789862768952 |