
书: https://pan.baidu.com/s/1XqKbodMZYD_Bu2f_E1ghxw?pwd=y5p9
笔记如下:
- “大数据不仅指数据量大,更包含数据多样性(Variety)、高速性(Velocity)和价值密度低(Value)的特征。”
- “Hadoop的核心设计思想是‘移动计算比移动数据更划算’。”
- “MapReduce将计算过程分为Map(映射)和Reduce(归约)两个阶段,适合批处理场景。”
- “HDFS采用主从架构,NameNode管理元数据,DataNode存储实际数据块。”
- “YARN的出现使Hadoop从单一MapReduce框架升级为通用资源管理系统。”
- “HBase是一个分布式、面向列的NoSQL数据库,适合实时读写海量数据。”
- “Spark通过内存计算将迭代算法性能提升100倍,支持SQL、流计算和图计算。”
- “RDD(弹性分布式数据集)是Spark的核心抽象,具有分区、不可变和容错特性。”
- “流计算分为批式流处理(如Spark Streaming)和真正流处理(如Flink)。”
- “Lambda架构整合批处理层(保证准确)和速度层(保证低延迟)。”
- “数据仓库Hive将SQL查询转换为MapReduce任务,降低大数据使用门槛。”
- “Kafka采用发布-订阅模式,通过分区副本机制实现高吞吐消息队列。”
- “数据挖掘的经典算法包括分类(如决策树)、聚类(如K-Means)和关联规则(如Apriori)。”
- “机器学习模型训练本质是优化损失函数的过程,分为监督学习和无监督学习。”
- “数据可视化通过图形化手段揭示数据内在规律,是大数据分析的最后一步。”
- “ETL(抽取-转换-加载)是构建数据管道的关键流程。”
- “CAP理论指出分布式系统无法同时满足一致性(C)、可用性(A)和分区容错性(P)。”
- “Pig Latin语言通过数据流编程简化Hadoop复杂操作。”
- “Zookeeper为分布式系统提供协调服务,如统一命名、配置管理和分布式锁。”
- “大数据安全需考虑数据传输加密、访问控制审计和数据脱敏等技术。”