大数据技术原理与应用(第三版)(林子雨)

书: https://pan.baidu.com/s/1XqKbodMZYD_Bu2f_E1ghxw?pwd=y5p9
笔记如下:

  1. “大数据不仅指数据量大,更包含数据多样性(Variety)、高速性(Velocity)和价值密度低(Value)的特征。”
  2. “Hadoop的核心设计思想是‘移动计算比移动数据更划算’。”
  3. “MapReduce将计算过程分为Map(映射)和Reduce(归约)两个阶段,适合批处理场景。”
  4. “HDFS采用主从架构,NameNode管理元数据,DataNode存储实际数据块。”
  5. “YARN的出现使Hadoop从单一MapReduce框架升级为通用资源管理系统。”
  6. “HBase是一个分布式、面向列的NoSQL数据库,适合实时读写海量数据。”
  7. “Spark通过内存计算将迭代算法性能提升100倍,支持SQL、流计算和图计算。”
  8. “RDD(弹性分布式数据集)是Spark的核心抽象,具有分区、不可变和容错特性。”
  9. “流计算分为批式流处理(如Spark Streaming)和真正流处理(如Flink)。”
  10. “Lambda架构整合批处理层(保证准确)和速度层(保证低延迟)。”
  11. “数据仓库Hive将SQL查询转换为MapReduce任务,降低大数据使用门槛。”
  12. “Kafka采用发布-订阅模式,通过分区副本机制实现高吞吐消息队列。”
  13. “数据挖掘的经典算法包括分类(如决策树)、聚类(如K-Means)和关联规则(如Apriori)。”
  14. “机器学习模型训练本质是优化损失函数的过程,分为监督学习和无监督学习。”
  15. “数据可视化通过图形化手段揭示数据内在规律,是大数据分析的最后一步。”
  16. “ETL(抽取-转换-加载)是构建数据管道的关键流程。”
  17. “CAP理论指出分布式系统无法同时满足一致性(C)、可用性(A)和分区容错性(P)。”
  18. “Pig Latin语言通过数据流编程简化Hadoop复杂操作。”
  19. “Zookeeper为分布式系统提供协调服务,如统一命名、配置管理和分布式锁。”
  20. “大数据安全需考虑数据传输加密、访问控制审计和数据脱敏等技术。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注