文字相关的概念
- 人工智能:目的
- 机器学习:一种实现人工智能的方法
- 深度学习:一种实现机器学习的技术
推荐书籍
- 周志华 机器学习
- python数据分析与挖掘实战
- 机器学习系统设计
- 面向机器智能TensorFlow实践
- TensorFlow技术解析与实践
学习路线
- 数据预处理、特征工程
- 模型、策略、优化
- 分类、回归和聚类
- Tensorflow
- 神经网络
- 图像识别
- 自然语言处理
基础知识
- 由于数据库性能低,数据读取慢,格式也不太符合机器学习要求的数据格式。所以机器学习的数据一般储存在文本文件中,例如csv文件。
- 读取数据使用pandas工具,pandas是基于numpy库使用C语言编写的,从底层释放python的GIL锁,实现真正的多线程。
- sklearn:对特征的处理提供强大的接口。
- 可用的现成数据集:
- scikit-learn:是一个库,数据量小方便学习。文档完善,丰富的API,包括许多知名机器学习算法的实现。
1
2
3安装Scikit-learn需要Numpy、pandas等库
pip install Scikit-learn
import sklearn - UCI:收录了360个数据集;覆盖科学、生活、经济等领域;数据量十几万
- Kaggle:大数据竞赛平台;80万科学家;真实数据;数据量巨大;
- scikit-learn:是一个库,数据量小方便学习。文档完善,丰富的API,包括许多知名机器学习算法的实现。
- 数据的格式:特征值+目标 注:一般情况下都是字符文字,需要预处理成数值数据,进而方便对数据的计算。
- 用户数据(需清洗) -> 数据预处理 -> 特征工程 -> 机器学习 -> 模型评估 -> 提供离线或在线服务(注:如果
模型评估
不合格需重新进行数据预处理
)