小土山-不周山闲逛
线性代数
- 行列式的计算
- 线性代数要解决的问题:线性方程组的求解
- 向量,方程组,矩阵。三者在一定条件下,相互等价。
- 秩(rank)
- 特征值与特征向量
概率和统计
- 卡方分布: 探究自变量的类别是否与因变量相关
- 置信度和置信区间。在多次实验中,位于置信区间内的次数/总实验次数
- 样本和总体。根据样本,做出假设 ==》根据假设,得到理论值 ==》根据理论值和样本值,得到卡方分布的统计量 ==》 统计量对表,选择是否接受假设。
- 点估计和区间估计。点估计对于某个样本,精确度高。区间估计,丧失了精确度,保留了置信度,一般选择95%
- 统计学的意义:用统计量来表征原始数据。原始数据的误差也要考虑在内,即样本的选取。
- 从经验出发,得出反直观的结论。不同于方程式。
html/css
- 标签的语义,像报纸一样。
- 一样有抽象,即抽离出公共部分
python
- 内存管理。原子类型,容器类型。变量基本都是引用。操作符和函数类似。根据原子类型被引用的次数,来进行垃圾回收
- 直接赋值:等号
- 深复制。copy.copy()
- 浅复制。copy.deepcopy()
- 运行机制:先编译为字节码,然后在虚拟机上解释执行。pyc是被编译过的文件,一般当文件作为模块被其他文件引用时,被引用的文件会生成.pyc
- 装饰器。sys库执行脚本命令
shell脚本
- 管道操作。短路技巧。
- 直接和系统级的命令打交道。
- 有:变量,数据类型(整数,实数),数据结构(数组,字典),控制结构
代码整洁之道(编码规范)
- 变量名、函数名:下划线分割,全部小写;少用驼峰法
- 类名驼峰法,首字母大写
- 注释规范。可以写TODO(maill@example.com):task
数据科学
- 搜索:爬虫爬取、搜索引擎优化(SEO)、链接分析
- 评价指标:准确率(查中的/返回的结果),召回率(查中的/真实的结果)
- 数据挖掘与数据库(采集==》预处理==》加工==》模式识别)
- 预测型任务
- 描述型任务(聚类,解释数据)
- 自然语言处理
微积分
深度学习入门
- tensorflow框架的安装(三种方式)
- virtualenv: 隔离的环境
- pip
- docker