【Shellerine】Tensorflow学习小组总结

机器学习

#1

思考问题: 1、机器学习中,监督学习 or ⾮监督学习概念区分,应⽤场景调研? 监督学习很重要的一点是所有训练集是带标签的,非监督学习却不是所有训练集都带标签或完全不带标签。在应用场景中,监督学习更适合分类问题,非监督学习适用聚类问题。 2、做机器学习项⽬,有哪些环节? 李宏毅老师指出的有三个重要步骤,分别是设定很多的函数方法,检测哪些方法是好的,找出最好的方法。 3、深度学习,⽬前有哪些应⽤领域? 深度学习应用于图像识别,语音识别,自然语言处理等领域。 4、数据预处理,需要注意哪些? 数据理解和数据准备,知道如何评估数据质量,清理原始数据,处理缺失数据,对特定变量进行变换(例如min-max变换,Z-score标准化,小数定标规范化;在回归分析中可能需要将分类变量重新编码为一个或多个标志变量,将分类变量转换为数值变量;对数值变量分箱,对分类变量重新划分类别)。原始数据可能存在以下问题:1.过时或冗余字段2.缺失值3.离群值4.其形式不适合数据挖掘模型5.与策略或常识不一致的值。 以下是整理《数据挖掘与预测分析(第2版)》第2章数据预处理的知识点。 ① 邮编格式:不是所有国家/地区的邮编格式相同,在这个时代,我们需要对各个字段的不寻常值做好预期准备。 ② 性别缺失值:分析中有时候省略带有缺失值的字段,也可以为缺失数据选择替换值:(1)使用分析师指定的一些常量替换缺失值(2)使用字段均值或众数替换缺失值(3)从观察到的变量分布中随机产生一个值替换缺失值(4)根据记录的其他特性得出估算值以替换缺失值。 ③ 收入异常值:客户1003的收入很高,并且根据邮编判断是比弗利山庄,判断很可能是异常值。直方图和二维散点图可以用来查看是否存在离群值。Z-score和IQR方法也可以检测离群值。 ④ 收入为负数:低于收入字段的值范围,可能是输入错误。 ⑤ 收入99999:精确度比较高,可能99999被编码为代表缺失值,需要咨询相关人员。 ⑥ 收入无单位:不同国家的货币不同,也可以通过邮编来判断货币单位。 ⑦ 年龄:首先数值型数据中含有分类标签不合适,其次年龄为0是表示缺失还是异常等原因不确定,还有,年龄是会随着时间的推移改变的,最好保存出生日期。 ⑧ 婚姻状况字段理解:例如S代表是single还是separated,这些意义需要了解。 ⑨ 交易金额无计量单位,是否所有记录的单位统一。 5、 tensorflow运⾏原理,架构有哪些核⼼点? tensorflow采用数据流图用于数值计算,由节点和线进行有向图计算,数据输入后,数据(矩阵,张量)通过线(关系)传输来计算,节点将被分配到各种计算设备上异步并行完成运算。 6、 学习中的知识点收获记录? 李飞飞老师讲的视觉发展历史,生物从无视觉到有视觉产生了一次生物进化“大爆炸”,计算机视觉研究从研究与人的视觉神经相似的猫的视觉开始。在学习过程中当涉及到专业一些的英语时听起来有些难理解。视觉信息,从边界的确定认识到形状,再到面的连接有层次信息,最后形成3D的物体。讲了视觉从研究到实际应用的例子,以及因为图片在形成时由于照相机的角度,光照等会影响识别图像需要提高处理图片的能力的例子。2000年的时候,人们从计算机视觉研究到具体的目标识别(object recognition)。三年花了很大的力气形成了ImageNet这个数据集,包含了众多的事物,及其对应的标签。直至2012年图像识别比赛的错误率明显降低,因为这一年使用了卷积神经网络。到2015年的时候卷积神经网络已经有152层了,层数越多,越复杂,形成了复杂的卷积神经网络。对于这个提升,计算机的性能和数据是两个重要的点。计算机视觉在理解图片意义上还有很远的路要走,图像识别是很有趣的一件事,例如一群人在草地上的描述可以是很多种的,如何让机器去理解奥巴马那张照片。

实践任务: a、安装tensorflow环境,了解tensorflow⼯作基本原理,基础概念 1.在Win8上安装了VMware Workstation,CentOS7及SecureCRTSecureFX。 2.查看linux自带的python版本为2.7.5,安装pip,pip install tensorflow,测试成功。 3.tensorflow基本原理:TF是谷歌的开源神器。 b、使⽤tf计算下⾯算式的值: x=2 ,y=3,z=7 求解: res=x*y+z的结果 c、使⽤tf计算求解,矩阵乘法结果: 矩阵乘法: A : [[3., 3.]] B: [[2.],[2.]] A矩阵和B矩阵的乘法运算。