Spark MLlib 机器学习算法与源码解析

课程简介:

Spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。

目前,Spark成为了现在大数据领域最火的开源软件,Spark也被许多企业尤其是互联网企业广泛应用到商业项目中,在国内包括阿里、百度、腾讯、网易、搜狐等。

本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架;实现了常用的机器学习,如:聚类、分类、回归等算法。本课拒绝枯燥的讲述,将循序渐进从Spark的基础知识、矩阵向量的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。

通过该课程的学习,同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行MLlib的应用开发和定制开发。且该课程优异毕业生均可获得老师内推机会,职位:数据挖掘工程师,就职企业:久邦数码、唯品会、腾讯等。掌握技术,高薪就业,课程等待你的加入!
[code]官方课程链接:http://www.dataguru.cn/article-9322-1.html[/code]

课程目录:

第一课 Spark MLlib基础入门
1、Spark介绍
2、Spark MLlib介绍
3、课程的基础环境
4、Spark RDD操作
5、RDD操作的代码实操

第二课 Spark MLlib矩阵向量
1、Spark MLlib矩阵向量
2、矩阵向量的代码实操

第三课 Spark MLlib线性回归算法
1、线性回归算法
2、源码分析
3、实例
4、实例的代码实操

第四课 Spark MLlib逻辑回归算法
1、逻辑回归算法
2、源码分析
3、实例
4、实例的代码实操

第五课 Spark MLlib贝叶斯分类算法
1、贝叶斯分类算法
2、源码分析
3、实例
4、实例的代码实操

第六课 Spark MLlib决策树算法
1、决策树算法
2、源码分析
3、实例
4、实例的代码实操

第七课 Spark MLlib KMeans聚类算法
1、KMeans聚类算法
2、源码分析
3、实例
4、实例的代码实操

第八课 Spark MLlib FPGrowth关联规则算法
1、FPGrowth关联规则算法
2、源码分析
3、实例
4、实例的代码实操

第九课 Spark MLlib协同过滤推荐算法
1、协同过滤推荐算法
2、源码分析
3、实例
4、实例的代码实操

第十课 Spark MLlib神经网络算法
1、神经网络算法
2、源码分析
3、实例
4、实例的代码实操

课程截图:

机器学习及其matlab实现—从基础到实践 MATLAB入门基础到进阶视频教程

课程简介:

近年来,随着人工智能的发展,机器学习已经广泛应用于各行各业中,如语言识别、文 本分类、智能推荐、网络安全、物联网等。然而,对于绝大部分非数学专业出身的人而言, 谈到机器学习,就会被大量的数学公式吓到退避三舍。实际上,随着计算机与信息技术的快 速发展,越来越多的人仅需要会使用机器学习这一工具即可,无需了解各种机器学习算法的 细枝末节。正如,我们每天都在使用计算机,但是我们不需要了解 CPU 和内存在每一时刻 的具体运行过程。因此,我们推出本课程,旨在帮助学员了解各种常见机器学习算法的原理与思想,同时,以具体案例的形式,引导学员自己动手实践编程。
考虑到众多学员基础不一,本次课程将会分成三大部分:MATLAB 入门基础与提高、机器学习基础和具体案例实践。

课程由炼数成金发布,猴头客收集整理于网络,如有侵权,请联系猴头客删除!

课程目录:

第一课:MATLAB 入门基础
1、简单介绍 MATLAB 的安装、版本历史与编程环境
2、MATLAB 基础操作(包括矩阵操作、逻辑与流程控制、函数与脚本文件、基本绘图等)
3、文件导入(mat、txt、xls、csv 等格式)

第二课:MATLAB 进阶与提高
1、MATLAB 编程习惯与风格
2、MATLAB 调试技巧
3、向量化编程与内存优化
4、图形对象和句柄

第三课:BP 神经网络
1、BP神经网络的基本原理
2、BP神经网络的 MATLAB 实现
3、案例实践
4、BP神经网络参数的优化

第四课:RBF、GRNN 和 PNN 神经网络
1、RBF 神经网络的基本原理
2、GRNN 神经网络的基本原理
3、PNN 神经网络的基本原理
4、案例实践

第五课:竞争神经网络与 SOM 神经网络
1、竞争神经网络的基本原理
2、自组织特征映射(SOM)神经网络的基本原理
3、案例实践

第六课:支持向量机(Support Vector Machine, SVM)
1、SVM 分类的基本原理
2、SVM 回归拟合的基本原理
3、SVM 的常见训练算法(分块、SMO、增量学习等)
4、案例实践

第七课:极限学习机(Extreme Learning Machine, ELM)
1、ELM 的基本原理
2、ELM 与 BP 神经网络的区别与联系
3、案例实践

第八课:决策树与随机森林
1、决策树的基本原理
2、随机森林的基本原理
3、案例实践

第九课:遗传算法(Genetic Algorithm, GA)
1、遗传算法的基本原理
2、常见遗传算法工具箱介绍
3、案例实践

第十课:粒子群优化(Particle Swarm Optimization, PSO)算法
1、粒子群优化算法的基本原理
2、案例实践

第十一课:蚁群算法(Ant Colony Algorithm, ACA)
1、粒子群优化算法的基本原理
2、案例实践

第十二课:模拟退火算法(Simulated Annealing, SA)
1、模拟退火算法的基本原理
2、案例实践

第十三课:降维与特征选择
1、主成分分析的基本原理
2、偏最小二乘的基本原理
3、常见的特征选择方法(优化搜索、Filter 和 Wrapper 等)

课程截图:

感谢来自@xuexi 的投稿!

Hadoop数据分析平台 独立架设Hadoop集群

课程简介:

Hadoop已经成为云计算软件的一个事实标准,以及开源云计算解决方案的几乎选择。对于想用低成本(包括软硬件)实现云计算平台或海量数据分析平台的用户,Hadoop集群是推荐的对象。由于Hadoop在各方面都打破了传统关系型数据库的思路和模式,对于新接触Hadoop平台的人,往往会觉得困惑和难以理解,进而转化为畏惧。我们的《Hadoop数据分析平台》课程,正是为了帮助传统关系型数据库用户和数据分析者进入这个领域而开设,力求做到架构与实施并重,原理和实践结合,希望大家能在这个网络课程里学有所获,而我们也可为开源大业作出微薄的贡献。

课程由炼数成金发布,猴头客收集整理于网络,如有侵权,请联系猴头客删除!

课程目录:

第1课 Hadoop的源起与体系介绍;实施Hadoop集群;CDH家族
第2课 分布式文件系统HDFS原理与操作,HDFS API编程;2.x下HDFS新特性,高可用,联邦,快照
第3课 具有全部新特性的2.x企业级集群实施
第4课 Map-Reduce原理、体系架构和工作机制,eclipse与Hadoop集群连接,使用maven
第5课 Map-Reduce编程实战,日志分析
第6课 Map-Reduce复杂应用案例,Hadoop流
第7课 新一代计算框架YARN
第8课 Pig原理,部署与Pig Latin语言,应用案例
第9课 Hive体系架构、安装与HiveQL
第10课 Hive应用案例,impala子项目
第11课 Zookeeper与分布式系统开发
第12课 HBase体系架构,集群部署,管理
第13课 HBase数据模型,实战案例建模剖析
第14课 数据集成Sqoop,Flume,Chukwa,商业数据库与Hadoop集群的连接
第15课 与应用连接,REST和Thrift接口,UDF实战,RHadoop,数据分析软件与Hadoop集群的连接
第16课 进军Hadoop源代码
第17课 Hadoop在互联网企业中的应用案例;集成各个子项目形成企业级数据分析平台;Hadoop与机器学习

课程截图:

区块链技术从入门到精通 区块链开发视频教程

课程简介:

区块链最早是比特币的基础技术,目前世界各地均在研究,可广泛应用于金融等各领域。

区块链的基本原理

交易(Transaction):一次操作,导致账本状态的一次改变,如添加一条记录;

区块(Block):记录一段时间内发生的交易和状态结果,是对当前账本状态的一次共识;

链(Chain):由一个个区块按照发生顺序串联而成,是整个状态变化的日志记录。

如果把区块链作为一个状态机,则每次交易就是试图改变一次状态,而每次共识生成的区块,就是参与者对于区块中所有交易内容导致状态改变的结果进行确认。

课程目录:

第1课 区块链介绍

第2课 客户端安装及运行

第3课 以太坊网络

第4课 智能合约编程入门

第5课 Solitidy复杂变量类型

第6课 Solitidy 方法

第7课 Solitidy 继承 和 事件

第8课 Solitidy 编程实战

第9课 Solitidy 编程实战

第10课 去中心化应用Dapp项目实战

课程截图:

实战Java高并发程序设计 Java高级程序设计教程

课程简介:

随着多核时代的兴起,现在的服务器CPU可能多达10个以上的内核。对于并发编程的市场需求量激增,那么如何才能将多核CPU的性能发挥到极致呢?

而Java作为服务端编程使用最广泛的语言,必然需要和多核CPU打交道。那Java为我们提供了哪些并发编程的工具呢?

本课程将重点介绍基于Java语言的并行程序设计。内容将涵盖多线程基础、并发库解析以及高并发程序设计思路等多个方面。

如何写出正确的并行代码,而且是写出高性能的程序,本课程都会给你答案!

课程大纲:

第1课:前言和多线程基础

为什么需要并行

有关并行的重要概念

有关并行性能的2个重要定律

第2课:多线程基础

线程的基本操作

守护线程

优先级

中断处理

基本的线程同步操作

第3课:Java内存模型和线程安全

原子性

可见性

有序性

Happen-Before 规则

线程安全的概念

线程安全的反例

第4课:JDK并发包

各种同步控制工具的使用

并发容器及典型源码分析

同步工具、并发容器使用小案例

第5课:JDK并发包

线程池的基本使用

扩展和增强线程池

线程池及其核心代码分析

ForkJoin

第6课:并发设计模式

单例

不变模式

生产者消费者

Future模式

第7课:无锁

无锁类的使用

无锁类的原理详解

无锁算法详解

第8课:NIO和AIO

NIO的好处

NIO核心类介绍

Selector的多路复用

使用NIO进行网络编程案例

AIO介绍

第9课:锁的优化和注意事项

锁优化的思路和方法

虚拟机内的锁优化

死锁

一个错误使用锁的案例

ThreadLocal及其源码分析

第10课:并发调试与JDK8新特性

多线程调试的方法

多线程调试案例

线程dump及分析

JDK8对并发的新支持

第11课:综合案例:jetty核心代码分析

jetty如何处理高并发

实现高并发程序的基本思想

课程截图: