《数据挖掘与分析 概念与算法》英文版 PDF格式

《数据挖掘与分析 概念与算法》英文版 PDF格式

本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章最后均附有参考书目和习题。

本书源自美国伦斯勒理工学院(RPI)和巴西米纳斯吉拉斯联邦大学(UFMG)数据挖掘课程讲义。自1998 年起,RPI 每年秋季都会开设数据挖掘课程,UFMG 自2002 年起也开设了这门课程。尽管有不少关于数据挖掘及相关话题的好书,但我们感觉大多数书的层次或难度太高。我们的目标是写一本专注于数据挖掘与分析的基本算法的入门书,通过解释所有初次碰到的关键概念,为学习数据挖掘的核心方法打下数学基础,并试图通过直观地阐述各种公式以辅助理解。

本书主要内容包括:探索性数据分析、频繁模式挖掘、聚类和分类。本书既能为以上任务打下良好的基础,又兼顾了前沿话题,例如核方法、高维数据分析、复杂图和网络等。本书融合了相关学科(如机器学习和统计学)中的相关概念,也非常适用于数据分析课程。绝大部分的必备知识都包含在本书之中,尤其是关于线性代数、概率和统计的知识。

本书使用了大量的例子来阐述主要的技术概念,同时每章末尾还附有习题(课上使用过的)。本书中涉及的所有算法作者都实现了一遍。建议读者使用自己喜欢的数据分析和挖掘软件来尝试书中给出的例子,并实现书中所描述的算法;我们推荐使用R 或者Python 的NumPy 包。

资源目录

    • Preface
    • 1. Data Mining and Analysis
    • 1.1  DataMatrix
    • 1.2  Attributes
    • 1.3  Data:AlgebraicandGeometricView
    • 1.3.1  DistanceandAngle
    • 1.3.2  MeanandTotalVariance
    • 1.3.3  OrthogonalProjection
    • 1.3.4  Linear Independence and Dimensionality
    • 1.4  Data:ProbabilisticView
    • 1.4.1 BivariateRandomVariables
    • 1.4.2 MultivariateRandomVariable
    • 1.4.3 RandomSampleandStatistics
    • 1.5  DataMining
    • 1.5.1 ExploratoryDataAnalysis
    • 1.5.2 FrequentPatternMining
    • 1.5.3 Clustering
    • 1.5.4 Classification
    • 1.6  FurtherReading
    • 1.7  Exercises
    • I Data Analysis Foundations
    • 2 Numeric Attributes
    • 2.1  UnivariateAnalysis
    • 2.1.1 MeasuresofCentralTendency
    • 2.1.2 MeasuresofDispersion
    • 2.2  BivariateAnalysis
    • 2.2.1 MeasuresofLocationandDispersion
    • 2.2.2 MeasuresofAssociation
    • 2.3  MultivariateAnalysis
    • 2.4  DataNormalization
    • 2.5  NormalDistribution
    • 2.5.1 UnivariateNormalDistribution
    • 2.5.2 MultivariateNormalDistribution
    • 2.6  FurtherReading
    • 2.7  Exercises
    • 3 Categorical Attributes
    • 3.1  UnivariateAnalysis
    • 3.1.1 BernoulliVariable
    • 3.1.2 MultivariateBernoulliVariable
    • 3.2  BivariateAnalysis
    • 3.2.1 Attribute Dependence: Contingency Analysis
    • 3.3  MultivariateAnalysis

3.3.1 Multi-wayContingencyAnalysis

  • 3.4  DistanceandAngle
  • 3.5  Discretization
  • 3.6  FurtherReading
  • 3.7  Exercises
  • 4  Graph Data
  • 4.1  GraphConcepts
  • 4.2  TopologicalAttributes
  • 4.3  CentralityAnalysis
  • 4.3.1 BasicCentralities
  • 4.3.2 WebCentralities
  • 4.4  GraphModels
  • 4.4.1 Erdös-RényiRandomGraphModel
  • 4.4.2 Watts-Strogatz Small-world Graph Model
  • 4.4.3 Barabási-AlbertScale-freeModel
  • 4.5  FurtherReading
  • 4.6  Exercises
  • 5  Kernel Methods
  • 5.1  KernelMatrix
  • 5.1.1 ReproducingKernelMap
  • 5.1.2 MercerKernelMap
  • 5.2  VectorKernels
  • 5.3  BasicKernelOperationsinFeatureSpace
  • 5.4  KernelsforComplexObjects
  • 5.4.1 SpectrumKernelforStrings
  • 5.4.2 DiffusionKernelsonGraphNodes
  • 5.5 FurtherReading
  • 5.6 Exercises
  • 6  High-Dimensional Data 182
  • 6.1 High-DimensionalObjects
  • 6.2 High-DimensionalVolumes
  • 6.3 HypersphereInscribedwithinHypercube
  • 6.4 VolumeofThinHypersphereShell
  • 6.5 DiagonalsinHyperspace
  • 6.6 DensityoftheMultivariateNormal
  • 6.7 Appendix: DerivationofHypersphereVolume
  • 6.8 FurtherReading
  • 6.9 Exercises
  • 7  Dimensionality Reduction

 

分享到 :
相关推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注