这是崔斯特的第十六篇原创文章
这是学习统计学的第一篇笔记,以后尽量都放在这里吧。
发现使用hexo发文章的快捷键:
hexo clean && hexo g && hexo d
下面是正文:
1、统计中的基本概念
- 总体和样本。总体:所研究的全部个体;样本:总体中的一部分
- 参数和统计量。参数:用来描述总体特征的概括性数字度量;统计量:用来描述样本特征的概括性数字度量。
- 变量。变量、分类变量(事物类别的一个名称)、顺序变量(事物有序类别的一个名称)、数值型变量、离散型变量(只能取可数值的变量)、连续性变量。
2、数据的收集
1、数据的间接来源
二手数据:公开出版的或公开报道的数据。
2、数据的直接来源
(1)统计调查方式
- 抽样调查:经济性、时效性强、适应面广、准确性高。
- 普查:一次性或周期性、规定调查时间、数据比较准确、范围比较狭窄。
(2)数据的收集方法
- 询问调查:访问调查、邮寄调查、电话调查、计算机辅助调查、座谈会、个别深度访问。
- 观察与实验:观察法、实验法。
竟然没网络爬虫,嘤嘤嘤
3、调查设计
(1)调查方案设计
- 调查目的
- 调查对象和调查单位
- 调查项目和调查表
(2)调查问卷设计
a.调查问卷的基本结构:
- 开头部分(问候语、填表说明、问卷编号 )
- 甄别部分:过滤——筛选掉不需要的部分——针对特定人群
- 主体部分:调查的全部问题
- 背景部分:被调查者的背景资料
b.提问项目的设计:
- 提问的内容尽可能短
- 用词要确切、通俗
- 一个项目只包含一项内容
- 避免诱导性提问
- 避免否定式提问
- 避免敏感性问题
c.回答项目的设计
- 开放性问题:灵活;整理资料困难
- 封闭性问题:两项选择法、多项选择法(单项选择型、多项选择型、限制选择型)
- 顺序选择法:按顺序排列
- 评定尺度法:和NPS有点像哦
- 双向列联法:表格表现
d.问题顺序的设计
- 问题的安排硬具有逻辑性
- 问题的顺序应先难后易
- 能引起被调查者兴趣的问题放在最前面
- 开放性问题放在后面
(3)统计数据的质量
a.统计数据的误差
b.统计数据的误差
- 精度
- 准确性
- 关联性
- 及时性
- 一致性
最低成本
这是统计学基础 第三版 (贾俊平)的记录,看了前两章,感觉受益匪浅,尤其是问卷的设计,比较系统、完整,可以应用在以后的工作中。
书名:统计学基础 第三版
作者:贾俊平
出版社:中国人民大学出版社
最后说一说为什么要学统计学
最直接原因是工资高。可以去拉勾上看看“数据分析”、“数据挖掘”、“数据科学家”等职位,他们对学历的要求基本上都会有“统计学”。
对于我这种文科生来说,学习统计学是必经之路。敲门砖啊!
最后记录下最近学习的数据科学的流程:
- 业务理解
- 分析方法
- 数据要求
- 收集数据
- 数据理解
- 数据准备
- 建模(use and test)
- 模型评估
- 部署与反馈
自己判断,缺少的是业务理解,对相关的业务知识了解太少;分析方法知道的太少了,接下来会着重学习一些常见的算法;数据准备也是一个大坑,不过好在自己有一些Python基础;建模才是最难的,慢慢来吧。
最近几天需要个自己定一个学习任务,内容主要包括:统计学基础、常见算法、pandas处理数据及可视化、业务理解、Scrapy框架学习、前端(没错,学点前端很有必要)
欢迎加我微信,一起来学习,嘤嘤嘤
下面是常见的分析方法