1、使用计数法:即对需要统计的对象一一进行计数,使用计数器直接计数,最后得出数量。
2、使用占比法:即将需要统计的对象总数占全部对象的比例,最后得出数量。
3、使用分组法:即将需要统计的对象根据特定条件进行分组,并对每组对象进行计数,最后得出数量。
统计数量这样统计比较好。
1. 抽样调查:从大量的数据中随机抽取一个代表性的样本,对样本数据进行统计分析,然后推断总体。抽样调查可以减少计算量,但需要保证样本的代表性。
2. 聚类分析:将大量数据根据相似度聚类成不同的类别,然后对各个类别进行分析。通过减少计算量来处理大量数据。常用方法有K-means聚类、层次聚类等。
3. 回归分析:建立大量数据中的变量与目标变量之间的回归模型,通过模型来推断和预测。常用的方法有线性回归、逻辑回归等。
4. 数据可视化:通过图表、图像等直观手段展示大量数据的分布、变化、关联等特征。常用工具有Echarts、Matplotlib、Seaborn等。通过人工分析图表来获取数据规律。
5. 特征工程:通过特征选择、降维等方法从大量数据中提取最具代表性和区分度的特征。避免"维数灾难",方便后续的建模与分析。常用方法有PCA、SVD、GBDT等。
6. 广义线性模型:扩展传统的线性回归模型,可以适应更广泛的分布类型和应用场景。例如poisson回归、gamma回归等,可用于大量计数和非正态数据的建模。
7. 混合模型:将不同的模型组合使用,发挥各自的优势。例如,使用决策树进行特征选择,然后使用线性回归/逻辑回归进行回归/分类建模。这种组合可以更好处理大量复杂的数据。
8. 采样建模:从大量数据中采样拿出训练集进行建模,然后对测试集进行预测和评估。反复多次采样建模,选择最优模型。即bootstrap、subsample等方法。采样可以降低计算复杂度。
统计整理不是采用工程生物等措施对什么进行综合整治。
统计整理是根据统计研究的任务和要求,对统计调查所搜集到的大量原始资料进行加工整理、汇总,使其条理化、系统化,得出能够反映现象总体特征的综合资料的过程。统计整理是统计调查的继续,是统计分析的前提,在整个统计工作中具有承前启后的作用。