大数据清洗技术 Big Data Cleaning
第一章 绪论
1.1 大数据的定义及其应用
1.2 数据质量问题
| —- | —- | —- | —- |
| 可加入能力 | 下载能力 | 识别错误能力 | 上传能力 |
| 可接受性 | 竞争访问 | 可访问性 | 精确性 |
| 适应性 | 充足的详细介绍 | 充足的空间 | 审美主义 |
1.3 大数据的质量问题与挑战
1.4 数据清洗研究与进展
1.5 本书的内容
本章参考文献
第二章 大数据处理技术概论
2.1 大数据并行计算平台
2.2 众包技术
本章参考文献
第三章 实体识别
3.1 实体识别概述
3.2 串行实体识别算法
3.3 并行实体识别算法
3.4 增量实体识别算法
3.5 基于众包的实体识别
本章参考文献
第四章 真值发现
4.1 真值发现算法概述
4.2 并行真值发现算法
4.3 增量真值发现算法
4.4 基于众包真值发现
本章参考文献
第五章 缺失值填充
5.1 缺失值填充算法概述
5.2 基于贝叶斯网络的串行缺失值填充算法
5.3 实验结果与分析
5.4 并行缺失值填充算法
5. 基于众包的缺失值填充算法
本章参考文献
第六章 不一致数据的检测与修复
6.1 不一致数据的检测与修复概述
6.2 并行不一致数据检测与修复方法
6.3 基于众包的不一致数据检测与修复方法
6.4 扫描数据一次的大数据不一致检测算法
本章参考文献
第七章 多数据质量问题综合清洗与优化
7.1 数据质量维度的关系
7.2 基于任务合并的并行数据清洗优化
7.3 综合大数据清洗系统
本章参考文献
名词索引
贝叶斯推理
贝叶斯网络
编辑距离
并行计算
并行算法
Co-NP 难问题
参数估计
冲突解决
抽样
传递性
串行算法
大数据
倒排索引
等方差性
分布正态性
概率推理
关联关系分析
Hadoop
Hyracks
函数依赖(FD)
Jaccard 相似度
机器学习
加速比
近似算法
精确性
聚类
MapReduce
缺失值填充
时效性
实体
实体划分
实体识别
数据集成
数据流
数据清洗
数据修复
数据质量
条件函数依赖(CFD)
团
完整性
无监督学习
线性分类
相关矩阵
相似分组
相似性函数
一致性
异常值检测
预处理
增量算法
召回率
召回率是指在所有实际正例中,模型能够正确识别出多少个正例的比例。在机器学习和数据检索中,它是衡量模型识别出的正例占总正例数量的比例。
召回率的高低表示模型对于真实正例的识别能力。高召回率意味着模型能够较好地识别出正例,而低召回率则意味着模型漏掉了许多真实的正例。在某些场景下,召回率比准确率更重要,特别是在需要尽量少漏掉真正例的情况下,比如医学诊断或者安全检测。