首页 | 网站地图
首页 > 社會學 > 數據預處理

數據預處理


图书基本信息
出版时间:2011-3
出版时间:廈門大學出版社
作者:劉雲霞
页数:130
字数:120000
书名:數據預處理
封面图片
數據預處理
内容概要
数据归约是数据挖掘过程的关键环节,因此对数据归约技术的研究具有重要的意义。当前已有的数据归约方法多偏重于有监督学习,而无监督情形下归约方法的研究还相对不够丰富。鉴于这种情况,刘云霞编著的《数据预处理——数据归约的统计方法研究及应用》的重点内容是尝试对无监督数据归约的统计方法及其应用进行研究。
在《数据预处理——数据归约的统计方法研究及应用》第一章中,首先阐述了选题的研究背景和研究意义。之后,在概述相关背景知识和总结国内外数据归约研究方法现状的基础上,明确了本书的研究内容及创新之处。
数据归约两项重要的基础工作——缺失值填补和异常值探测是第二章探讨的内容。在本章,根据对统计学中常用的各种缺失值填补和异常值探测方法的分析,总结出了一些适合数据挖掘使用的方法。此外,通过将几种异常值探测方法应用在某地区移动通信用户缴费数据库上,对手机用户的消费行为进行了实证分析。
数据归约包括元组的归约和属性的归约。本书在第三章探讨了元组归约的两种主要方法——连续属性离散化和概念分层。在对当前的离散化方法和概念分层中面向属性归纳方法综述的基础上,提出了两种从独立性角度考虑的连续属性离散化方法,分别是基于可辨识矩阵的离散化方法和基于似然比假设检验的离散化方法。并通过在Iris样本集上对这两种方法进行模拟,验证了它们的有效性。
属性重要性排序以及属性的提取和属性子集的选择是属性归约的两类方法。本书在第四章探讨了属性重要性的排序问题。数据挖掘中目前常见的排序问题是有监督属性的排序,本章首先对它们作了介绍和比较。然后在无监督属性重要性的排序方面,提出了单向有序列联资料的属性排序方法——改进秩和法和基于因子分析的无监督属性排序方法,这两种方法分别在一份调查问卷的列联资料和全国居民人均消费支出样本集的模拟中,取得了较为满意的结果。
第五章探讨的是属性的提取和属性子集的选择问题。首先对目前在数据挖掘中用于属性线性提取的几种统计学和其他学科的方法作了介绍和评价。然后是本章的重点内容——属性子集的选择,在对属性子集选择的基本知识及目前已有的研究成果详细阐述和分析之后,提出了逐步向前的无监督属性选择方法,并通过实例验证了该方法的有效性。
第六章對全書的主要工作進行了總結,並指出了有待進一步改進和完善的地方。
本書的創新之處主要有以下四個方面︰
(1)提出了分別基于可辨識矩陣和基于似然比假設檢驗的兩種連續屬性離散化方法。
(2)提出了单向有序列联资料属性排序的方法——改进秩和法。
(3)提出了基于因子分析的無監督屬性重要性的排序方法。
(4)提出了逐步向前的無監督屬性選擇方法。
书籍目录
摘要
第一章 緒論
第一節 選題的研究背景和研究意義
第二節 相關背景知識
一、數據挖掘的發展概況
二、數據歸約的主要內容
三、數據歸約的重要作用
第三節 國內外研究現狀
一、屬性離散化方法研究的現狀
二、屬性排序和屬性子集選擇方法研究的現狀
第四節 本書的研究內容及創新點
一、本書的研究內容和結構
二、本書的創新點
第二章 缺失值的填補與異常值的探測
第一節 缺失值的填補
一、單一填補法和多重填補法
二、基于距離的填補方法
三、貝葉斯填補方法
第二節 異常值的探測
一、異常值及形成原因
二、異常值的探測方法
三、異常值探測的步驟及應用
第三節 移動通訊用戶消費行為的分析
一、單個屬性異常值探測的應用及分析
二、多個屬性的異常值探測方法的應用及分析
第三章 數據挖掘中元組的歸約
第一節 面向屬性歸納
一、面向屬性歸納
二、面向屬性歸納的步驟
三、面向屬性歸納的算法
第二節 連續屬性離散化方法及分類
一、離散化方法的分類
二、典型離散化的過程及結果評價
三、相關的離散化方法
第三節 基于可辨識矩陣的連續屬性離散化方法
一、基于可辨識矩陣離散化方法的基本思路
二、基于可辨識矩陣離散化方法的框架
三、基于可辨識矩陣離散化方法的統計模擬
第四節 基于似然比假設檢驗的連續屬性離散化方法
一、基于似然比假設檢驗的離散化方法
二、基于似然比假設檢驗離散化方法的步驟
三、基于似然比假設檢驗離散化方法的驗證
四、兩種離散化方法結果的比較
第四章 屬性重要性的排序
第一節 有監督屬性重要性的排序
一、粗糙集理論中屬性重要性的排序方法
二、信息論和決策樹中屬性重要性的排序方
三、神經網絡中屬性重要性的排序方法
四、三種方法的比較
第二節 單向有序列聯資料的屬性重要性的排序
一、單向有序列聯表
二、以秩效應為標準的方法
三、改進秩和法
四、改進秩和法對一份調查問卷的分析
五、以秩效應為標準的方法和改進秩和法的比較
第三節 基于因子分析的無監督屬性重要性的排序
一、基于因子分析的屬性重要性排序方法
二、基于因子分析的屬性重要性排序方法的步驟
三、基于因子分析排序方法的框架
四、基于因子分析屬性重要性排序方法的驗證
五、值得注意的問題和局限性
第五章 屬性的提取與屬性子集的選擇
第一節 屬性的提取
一、小波變換
二、投影尋蹤
三、多維標度
四、多元統計分析方法
五、幾種屬性提取方法的比較
第二節 屬性子集的選擇
一、屬性子集選擇方法的兩個組成部分
二、屬性子集選擇方法的兩種模式
三、基于各學科知識的屬性子集選擇方法
四、關于模式識別中基于距離的評價函數的思考
第三節 逐步向前無監督屬性子集的選擇方法
一、逐步選擇方法的不足
二、逐步向前無監督屬性子集選擇方法的思路
三、逐步向前無監督屬性子集選擇方法的基本框架
四、統計模擬及方法驗證
五、逐步向前無監督屬性子集選擇方法的合理性和局限性
第六章 全書的總結
第一節 全書的主要工作
第二節 尚需研究的問題
參考文獻
後記
攻讀博士學位期間發表的論文
PDF格式资源下载

 

 

爬虫代理IP   代理IP   好用代理IP   推荐代理IP   百变IP  


 
社會科學 PDF/TXT下载|社科圖書网 @ 2018