我是最棒的
疯狂紫萧

简介:我是最棒的

粉丝

0

关注

0

刚刚参加了一个面试,面试官问一问题:
如果我有上千万条数据,那我怎样确定将这些数据中的哪些数据作为训练样本集?
我当时没答上来,就随便说了一个特征最明显的数据。

2019-01-08 15:00 浏览 45 收藏 举报

分享你的真实观点和经验,通过汇编、洗稿的等方式拼凑的回答将会被折叠 完成
3个回答
  • 四月
    10
    人间四月天
    四月

    简介:人间四月天

    粉丝

    0

    关注

    0

    在训练样本的时候
    可以将N个样本随机划分成K层
    在MATLAB中可以使用crossvalind来实现N个样本分成K份

    %% 样本划分
    K = 10;
    N = size(samples,1);    % samples为样本
    indices = crossvalind('Kfold',N,k);    

    在训练样本的时候,可以按照indices来采样

    for i = 1:K
         test_example = (indices == i);  
        traing_example = ~test_example;     
        experiment_test = samples(test_example,:);  
        test_label = experiment_test(:,1);  
        exper_test = experiment_test(:,2:end);
        
        %%进行样本训练
    
    end
    评论 0
    2019-01-08 18:01:09 点赞   举报  
    取消 评论
  • 远方
    18
    没有后路,也许才有出路
    远方

    简介:没有后路,也许才有出路

    粉丝

    2

    关注

    0

    交叉验证,随机分成K份,选一份测试,其他的训练。

    评论 0
    2019-01-08 18:01:22 点赞   举报  
    取消 评论
  • 缘分
    5
    世界很美好,时间很宝贵。
    缘分

    简介:世界很美好,时间很宝贵。

    粉丝

    0

    关注

    0

    难道不是随机抽样一部分作为训练数据?比如随机抽样70%做训练,10%做验证,20%做测试。

    如果按照某个特征最明显来选择训练数据,岂不是违背了训练数据和测试数据独立同分布的假设?

    评论 0
    2019-01-08 18:01:37 点赞   举报  
    取消 评论