Fork me on GitHub

统计学学习笔记(一)

这是崔斯特的第十六篇原创文章

这是学习统计学的第一篇笔记,以后尽量都放在这里吧。

发现使用hexo发文章的快捷键:

hexo clean && hexo g && hexo d

下面是正文:


1、统计中的基本概念

  1. 总体和样本。总体:所研究的全部个体;样本:总体中的一部分
  2. 参数和统计量。参数:用来描述总体特征的概括性数字度量;统计量:用来描述样本特征的概括性数字度量。
  3. 变量。变量、分类变量(事物类别的一个名称)、顺序变量(事物有序类别的一个名称)、数值型变量、离散型变量(只能取可数值的变量)、连续性变量。

2、数据的收集

1、数据的间接来源

二手数据:公开出版的或公开报道的数据。

2、数据的直接来源

(1)统计调查方式

  1. 抽样调查:经济性、时效性强、适应面广、准确性高。
  2. 普查:一次性或周期性、规定调查时间、数据比较准确、范围比较狭窄。

(2)数据的收集方法

  1. 询问调查:访问调查、邮寄调查、电话调查、计算机辅助调查、座谈会、个别深度访问。
  2. 观察与实验:观察法、实验法。

竟然没网络爬虫,嘤嘤嘤

3、调查设计

(1)调查方案设计

  1. 调查目的
  2. 调查对象和调查单位
  3. 调查项目和调查表

(2)调查问卷设计

a.调查问卷的基本结构:
  • 开头部分(问候语、填表说明、问卷编号 )
  • 甄别部分:过滤——筛选掉不需要的部分——针对特定人群
  • 主体部分:调查的全部问题
  • 背景部分:被调查者的背景资料
b.提问项目的设计:
  • 提问的内容尽可能短
  • 用词要确切、通俗
  • 一个项目只包含一项内容
  • 避免诱导性提问
  • 避免否定式提问
  • 避免敏感性问题
c.回答项目的设计
  • 开放性问题:灵活;整理资料困难
  • 封闭性问题:两项选择法、多项选择法(单项选择型、多项选择型、限制选择型)
  • 顺序选择法:按顺序排列
  • 评定尺度法:和NPS有点像哦
  • 双向列联法:表格表现
d.问题顺序的设计
  • 问题的安排硬具有逻辑性
  • 问题的顺序应先难后易
  • 能引起被调查者兴趣的问题放在最前面
  • 开放性问题放在后面

(3)统计数据的质量

a.统计数据的误差
b.统计数据的误差
  • 精度
  • 准确性
  • 关联性
  • 及时性
  • 一致性
  • 最低成本


这是统计学基础 第三版 (贾俊平)的记录,看了前两章,感觉受益匪浅,尤其是问卷的设计,比较系统、完整,可以应用在以后的工作中。

书名:统计学基础 第三版

作者:贾俊平

出版社:中国人民大学出版社

最后说一说为什么要学统计学

最直接原因是工资高。可以去拉勾上看看“数据分析”、“数据挖掘”、“数据科学家”等职位,他们对学历的要求基本上都会有“统计学”。

对于我这种文科生来说,学习统计学是必经之路。敲门砖啊!

最后记录下最近学习的数据科学的流程:

  1. 业务理解
  2. 分析方法
  3. 数据要求
  4. 收集数据
  5. 数据理解
  6. 数据准备
  7. 建模(use and test)
  8. 模型评估
  9. 部署与反馈

自己判断,缺少的是业务理解,对相关的业务知识了解太少;分析方法知道的太少了,接下来会着重学习一些常见的算法;数据准备也是一个大坑,不过好在自己有一些Python基础;建模才是最难的,慢慢来吧。

最近几天需要个自己定一个学习任务,内容主要包括:统计学基础、常见算法、pandas处理数据及可视化、业务理解、Scrapy框架学习、前端(没错,学点前端很有必要)

欢迎加我微信,一起来学习,嘤嘤嘤

下面是常见的分析方法