城市站点
> cvs格式文件(老板让我汇总csv文件,怎么打开我都不会,同事说用excel三步搞定)
详细内容

cvs格式文件(老板让我汇总csv文件,怎么打开我都不会,同事说用excel三步搞定)

时间:2022-08-16 09:52:04     人气:299     来源:www.zhongshaninfo.com     作者:爱发信息
概述:......

Hello,大家好,今天跟大家分享下我们如何快速的汇总多个csv文件,这个也是之前一个粉丝问道的问题,前几太忙没时间写,今天就跟大家分享下

Csv文件常见于我们从系统中导出的文件,或者是下载的一些网页的数据,因为是从系统中导出的文件,他们的格式都是一摸一样的,汇总多个csv文件与合并多个excel工作薄十分类似,下面就让我们来看下他是如何操作的


cvs


一、导入数据

首先我们需要将所有的csv文件都放在一个文件夹中,复制这个文件夹的路径,然后打开一个excel,点击数据然后点击获取数据自文件

http://www.jsyunjun.com/file/upload/tt1999/999.jpg

中文件夹,然后将路径粘贴进去点击确定,看到导航器的界面后我们点击转换数据,这样的话就进入了power query的编辑界面



二、展开单个csv文件

当进入power query的界面后,我们选择第一列数据然后随便点击第一列数据中的一个binary文件,这样的话我们就会看到数据,我们在右边的应用步骤中将更改的类型以及提升标题这两步删除,点击导入的csv然后在编辑看复制公式:=Csv.Document(#"C:Users Desktop合并csv文件2018年全年销量_10月 csv",[Delimiter=",", Columns=16, Encoding=65001, QuoteStyle=QuoteStyle.None]),紧接着我们继续将导入的csv与导航这两步删除


三、合并csv文件

我们点击添加列然后选择自定义列,将刚才粘贴的公式粘贴进去,然后将#"C:Users Desktop合并csv文件2018年全年销量_10月 csv"也就是函数的第一参数删除,然后点击旁边的content将其作为第一参数点击确定,这样的话我们就会看到多了一列table列,然后我们紧紧保留自定义列,与name这两列数据,将其余的数据全部删除

http://www.jsyunjun.com/file/upload/tt1999/999.jpg


紧接着我们点击自定义旁边的左右箭头来扩展数据,在这里我们将使用原始列明作为前缀去掉,然后点击确定,这样的话我们就将数据扩展开了,因为在这里他是不能自动的识别表头的所有我们需要手动的提升下标题,点击主页选择将第一行作为标题


因为在这里我们是将12个表格合并在一起了,所以就有12个表头我们还需要将表头筛选删除掉,在这里我们选择订单这个字段,点击筛选,然后在内容中输入订单将前面的对勾去掉,然后点击确定,至此就完成了,我们只需要点击关闭并上载即可将数据加载进excel中


在这里我们使用的是power query进行数据汇总的,所以也是可以实现数更新的,在原表格点击更改数据,保存后回到汇总表刷新数据即可将更改后的数据刷新进汇总表中,在这里我们使用的是Csv.Document这个M函数进行数据汇总的

怎么样?你学会了吗?我是excel从零到一,关注我持续分享更多excel技巧


(声明: 网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。 )
  • 本文将主要讨论知识图谱在风控领域的图谱构建过程。enjoy~


    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    什么是知识图谱?

    借鉴其中一个理解:

    知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。

    具体理论知识就不在此赘述,对于这个抽象的概念会有一篇文章来列举一个代表性的例子。

    知识图谱起源于语义网络,最初由Google提出用与优化搜索结果,发展至今已经应用于各个垂直化领域。从商业概念上,知识图谱可分为“通用知识图谱”和“行业知识图谱”。通用知识图谱顾名思义是面向全领域的,强调的是“广度”,比较著名的知识库有Freebase, Wikidata, Yago, DBPedia等。

    行业知识图谱是面向特定的垂直领域,对于数据有更严格的前置数据模式和更准确的准确度要求,强调的是“深度”。两者之间的主要区别在于前者是“自底向上”构建的知识库,后者是“自顶向下”构建的知识库。


    金融领域数据是典型的具有”4V”特征的大数据(数量海量Volume、多结构多维度Variety、价值巨大Value、及时性要求Velocity)。进一步,金融领域是最能把数据变现的行业。金融业类别业非常广,大类主要包括:银行类、投资类、保险类等。再小粒度可分为:货币、债券、基金、信托等资管计划、要素市场、征信贷款等。知识图谱在金融领域的应用主要包括:风控、征信、审计、反欺诈、数据分析、自动化报告等,本文主要讨论知识图谱在小微风控的应用。

    风控是指如何当项目或企业在一定的风险的环境里,把风险减至最低的管理过程。它的基本程序包括风险识别、风险估测、风险评价、风险控制和风险管理效果评价等环节。

    风险控制的最大两个分类为企业风险监控和个人贷款审核。企业数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    据、企业失信数据、企业新闻数据。个人贷款的数据包括:个人的基本信息、行为信息、信用信息、

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    社交信息、消费信息等。

    本文将主要讨论知识图谱在风控领域的图谱构建过程。

    知识图谱的逻辑结构分为两个层次:数据层和模式层。

    在知识图谱的数据层,数据如果以『实体-关系-实体』或者『实体-属性-值』作为基本表达方式,我们把这种表达方式称为“三元组”,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。

    模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。

    这里涉及知识图谱的另外一个重要概念是“本体( Ontology)”。本体的概念最早起源于哲学领域, 指的是对客观存在系统的解释和说明。在众多概念中,维基上的定义更加通俗些:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。具体到金融风控领域,本体目的就是对风控领域的知识术语进行分类,同时规定各个分类之间的关系和它们自身的属性。

    本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。自动化构建包含3个阶段:实体并列关系相似度计算、实体上下位关系抽取、本体的生成。在领域本体构建的实际工程中,领域本体所涉及的实体类型非常有限(最多数量也不会过百),与其花很高的成本去做自动化,不如人工构建本体。所以本章节也主要讨论风控领域的手动本体构建过程。

    本体和知识图谱的构建方法有很多,这里分享一个在实际工作中初略的知识图谱构建流程:

    1. 本体库构建;
    2. 知识图谱构建;
    3. 知识图谱应用。


    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    提到知识图谱通常认为重点在于算法和开发,实际知识图谱的构建和传统关系型数据库的构建情况一样,重点在于具体业务流程的理解和本体的设计,知识图谱的构建过程的工作占比如下:


    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    如前所述,构建风控领域知识图谱的首要工作是构建本体模型,即定义行业的通用概念为实体,以及实体之间的关系。

    信贷最核心的主体就是贷款申请者,贷款申请者可能是个人也可能是公司,通过申请者的基本信息、行为信息、经营状况、社会关系等评估贷款的风险。因此可以列举信贷相关的核心实体为:人、企业、银行账户、银行、抵押物、申请事件、诉讼事件等,以及基本信息实体:电话、邮件、地址等。实体与实体之间的关系为 亲属、任职、所有权、事件参与方等。如图所示为一个简化版的信贷风控本体模型。

    为什么要将人和公司的电话地址设计为单独的实体节点,是基于风控的业务关注点,当两个贷款申请者有相同的电话或者地址时候,可能就是一个需要关注的风险点。把这两个信息作为单独的节点,基于图谱理论,当统计“电话”类型节点的边数量超过一个就能很方便找出高风险申请者。

    本体构建完成后,需要对比实际业务对本体进行验证,确保本体能够正确描述当前业务,并且包含了所有的业务流程。


    知识图谱的构建是图谱应用的前提,构建的主要工作是把数据从不同的数据源中按照本体模型所规定的规则抽取出来。对于垂直领域的知识图谱来说,数据的主要来源是是业务本身的数据,其通常是机构自己的私有数据以结构化的形式存储。通过ETL处理,将数据抽取转换为图谱数据。图谱数据的存储形式目前有两种:基于RDF等存储和图数据库存储。两者的比较如下所示:


    RDF图数据库存储三元组节点和关系拥有属性符合W3C标准图的遍历和扩展方便有标准的推理引擎拥有事务管理数据可移植性高工程化程度高多用于学术场景可视化效果好。

    在实际工程应用中主要采用图库的方式对知识图谱进行存储,当前比较流行的图数据库为Neo4j,本篇不再详细介绍图数据库和Neo4j,重点在于如何根据本体将数据映射成为Neo4j要求的数据格式。Neo4j提供了多种加载数据的方式,对于小规模数据(1w – 10w条数据),可以采用加载CSV的方式进行,CSV的格式要求如Neo4j官网的操作手册所示。

    假设数据源是关系型数据库,其中中有三张表及其字段如下所示,company表中字段“legal_person(法人代表)”和“manager(经理)”是外键关联到person表:

    我们要从源数据中抽取出多个实体和多条关系,这里部分举例如下:

    实体:

    person

    company

    account

    bank

    phoneNo

    address

    关系:

    person – lsLegalPersonOf -> company

    person – lsManagerOf -> company

    person – isOwnerOf -> account

    account – belongsTo -> bank

    person – hasPhoneNo -> phoneNo

    company – hasAddress -> address

    根据Neo4j的要求将源数据进行ETL处理,映射成为Neo4j要求的CSV格式文件,简单列举如下:

    person节点:

    personId:ID, personName, : LABEL

    001, “personA”, person

    002, “personB”, person

    法人关系:

    :START_ID, :END_ID, : LABEL

    001, 101, isLegalPersonOf

    002, 102, isLegalPersonOf

    当前,小微贷款和个人小额贷款还处于“蛮荒时代”,甚至出现了各种中介机构通过各种伪造的虚假信息帮助客户申请贷款。所以对于放贷方而言,借贷风险控制面临非常巨大的挑战。

    可以在图谱中直接搜索某个具体的人名字或者公司名字,获取该人或者公司的基础信息画像,如电话,地址,关联方的信息。如图所示:


    cvs

    通过图谱可以调查某个人或者某家申请贷款公司的关联方信息。在贷款审核期间,申请贷款主体的关联方信息中有借贷纠纷的诉讼事件,担保方过多等可关注的风险点。在贷款发放后,有时出现贷款方失联的情况,无法通过申请贷款时提交的信息联系到借款方,可以通探寻更“深远”的关联方找到失联的贷款方。


    在实际场景中,有不少人利用各种渠道而来身份证进行贷款申请。还有公司通过循环转账等方式提供虚假的经营流水信息。通过知识图谱可以识别以上风险点。如多个贷款申请人提供的身份证号吗不同,但是却有相同的联系电话号吗或者联系地址。银行作为借贷机构,可以调查申请人账户资金往来情况,识别是否存在循环转账等异常资金往来信息识别风险点。

    在图谱中,通过条件搜索指定的节点可以筛选调查风险节点,如:“电话号码”节点的关联方大于1的节点。


    在风控处理中,贷款风险比率是衡量商业银行风险最重要的指标之一,主要包括不良贷款比率、贷款加权风险度、贷款分散化比率、不良贷款拨备覆盖率等。将知识图谱中贷款人节点和相关指标相结合,设定报警阈值,通过机器学习等技术,找到隐蔽的风险结构,指标特征,能够快速找出相关责任方和其关联方,形成报告供业务人员进行调。

    本文主要介绍了知识图谱在风控中的应用和风控领域知识图谱的构建方法。知识图谱的构建前提是清晰的业务场景和良好的数据治理。很多著名的知识图谱构建案例中,大部分时间都是用在数据治理和数据映射上。借用一句别处看来的话:

    A “graph”—that understands real-world entities and their relationships to one another: things, not strings。

    本文由 @Eric_Xie 原创发布于人人都是产品经理。未经许可,禁止转载。

    题图来自 Pixabay,基于 CC0 协议

  • 近两年所有快消品企业都不好过,人力成本上升,销量下滑,为了保证财报漂亮,不得不压缩市场投放费用、大规模裁人,据说某知名饮料品牌商去年一线销售减员近5000人,其老对手也在西南区,上个月销售团队减员35%......在这种残酷的市场环境下,所有品牌商都在尝试找到一种更低成本更高效率的渠道分销模式。

    传统分销模式正在因为销量下滑成本不堪其重之时,近两年 B2B 却在异军突起,《新经销》在第三届快消品+互联网大会上发布的《中国快消品 B2B 竞争力白皮书》里,中国22个主要经济城市当中居然有124家 B2B 平台覆盖,单个市场平均覆盖规模也高达14家,京东阿里也在其中,B2B虽没有品牌商大力支持, 但仍然在不断的快速扩张野蛮生长,据《新经销》不完全统计,目前国内三线市场以内,B2B对主流渠道的覆盖已经几乎全部完成。对所调研城市夫妻小店的覆盖率也已经高达67%。

    B2B 的市场影响力越来越大,很多品牌商已经认识到 B2B是未来中国渠道一支不可忽视的力量,一些较为有先见之明的品牌商,陆陆续续开始不断的和各大 B2B 平台签约,近期媒体不断爆出蒙牛签约阿里巴巴零售通,伊利、达能战略签约京东新通路,亿滋,康师傅战略签约惠下单等等新闻。其背后的意义,是品牌商对B2B开始逐步战略性尝试和业务模式的认可。

    《新经销》在和诸多企业的高管在交流的过程当中发现,虽与 B2B合作,但是绝大多数品牌商,仅仅是把B2B 当成现有产品的分销渠道之一,而不是把 B2B当成一种新时代的分销模式。希望 B2B 可以在不与现有渠道成员冲突的情况下,创造新的销售增量。问题在于,B2B天然会与经销商产生一定的渠道冲突,特别是市场覆盖密度越大,分销体系越完善的品牌商,B2B对其渠道的影响也就越大。

    这里面品牌商有一个认知误区:把 B2B 当成一种类似于KA的分销渠道,而不是一种新的分销模式。

    事实上,B2B 与传统的经销分销模式,在服务的对象上,是高度重叠的,拆分来看这件事,品牌商与 B2B 的合作大概分成三种情况:

    • 第一种情况:现有产品,让 B2B 在新(增量)市场上分销,帮助品牌商完成市场覆盖,比如说有些品牌商只在一二线市场比较强势、三到六线市场比较弱势,希望让B2B 来完成低线市场的覆盖。

    • 第二种情况:新品上市,让 B2B 首发。想通过 B2B 平台快速渗透能力实现短时间内市场的初步覆盖。

    • 第三种情况:现有产品,让经销商全面触网,和 B2B 平台实现融合,从而完成互联网转型。

    上面的三种情况,都不免会遇到不同的问题:

    • 1、原来老品在新市场或者是弱势市场经销商卖不好的,毋庸置疑,B2B也卖不好。

    • 2、新品,短时间内渗透没有问题,但

      http://www.jsyunjun.com/file/upload/tt1999/999.jpg

      是规模性动销仍需要品牌商自己来想办法解决。

    • 3、如果渠道交叉覆盖,线上和线下的冲突必然产生,特别是自营型平台与传统经销商的存量冲突。

    • 4、仅仅是信息撮合,经销商也会非常抵触这类订单。

    之所以会出现上面这些问题,本质上,就是因为品牌商误把 B2B当成了类似于KA、CVS 的渠道,以为商品交给他们之后,他们会将商品很快的“消化”掉。可是商品消化到了哪里,这是一个值得探讨的课题。

    在这里,我们不妨先给传统的“渠道”做一个定义:直接触达消费者的零售业态,可以定义为渠道。

    KA,CVS、甚至是 B2C ,都是直接触达到 C 端(消费者),消费者购买后,就意味着整个消费流程就结束了。而 B2B “消化”的商品,并未直接到消费者,而是到了终端夫妻小店,夫妻小店还要再次销售该商品,直到商品销售给消费者。

    B2B 有自己独特的分销特性和分销模式,和经销商有很大的不同。对于品牌商来说,要理解 B2B,还需要从头梳理。

    品牌商从生产、仓储物流,渠道分销、价格分润、市场营销等等的供应链体系,都是为满足用户基本消费需求而设计的。通过少量SKU大规模工业化生产,专门化层分销体系,高密度市场覆盖渗透,从而实现商品的竞争力,没错,这就是营销圈常说的“大单品”。

    现阶段大多数品牌商的思维方式,仍然是“大单品”思维,仍然考虑如何把 “现有”的“工业化”商品如何更高效率,更低成本,更方便的送到消费者的手中。问题在于,传统意义上的消费者正在慢慢消失,随着消费升级,互联网对消费者信息的补充,消费者早已经不再是原来的那个给到“促销”就满足的消费者,用户在分层,每个人在消费过程中所追求的满足早已经不仅仅是物质满足,正在从吃得好向安全,健康,满足个性化的需求转移,市场正在慢慢变得高度碎片化,用户在哪里,想什么,想消费什么,已经是每个品牌商必

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    须要深度思考的问题。

    今天谈对 B2B 的认知,问题并不在 B2B 本身,而是在于品牌商对消费者变化的不适应。对存量的不舍和对未知空间的畏惧。

    B2B 从单个市场高密度分销的能力上,是不如专业经销商的,经销商擅长的就是渠道的高密度的覆盖,实现无处不在的商品曝光率,他们在当地市场深耕多年的资源累积,有多年的口碑和客情,也对当地市场十分熟悉,更是对专业的产品操盘有丰富的实战经验,这些,在 B2B 没有实现大规模数据累积的情况下,是根本不能够比拟的,但是,B2B从来就不是渠道,是一种新的商品分销模式。它是可以对高度碎片的消费群体,消费习惯,消费特点,满足个性化需求的新的分销模式。

    举个例子,如果某品牌生产一款商品,产品力很强,利润极高,极具未来市场潜力,但是在一个有1000万人口的省会市场,现阶段大概只有20-50万人有这种消费需求,按照传统的分销思路,这种产品只能在流量非常大的 KA 系统内销售,问题在于 KA 系统被 B2C 打的客流急剧下降的情况下,卖场也无法承载这类产品的有效销售,由于退货率极高,经销商根本不可能长期专注的分销这类商品,这就导致这款本来很有未来明星潜力的商品,因为投入大量费用后却不见有效市场反馈,只能不了了之。

    B2B 的优势就在于,很多经销商根本不能够大规模分销的长尾商品,个性化商品,以及小众商品,都可以通过 B2B 的全网能力实现可视,精准化分销,从而实现品牌商对个性化消费群体的准确覆盖。

    不仅仅是小众的商品,很多商品在市场分销上面,未来越来越需要门店精准消费数据的支撑。B2B 可以帮助品牌商能够开发出更多的,适合于消费者的,满足个性化需求的商品。

    而且商品的在途库存,渠道库存,门店内的商品销售频次,品类分销结构,消费者的消费画像,B2B 都可以根据其强大的一体化数据来给予精准支撑。这是传统经销商不可能比拟的。

    总的来说,经销商有经销商的优势,B2B 有 B2B 的长处。

    那么品牌商该要如何划分他们之间的区别,并加之有效利用这个新兴的渠道模式呢?

    cvs

    对于品牌商来说,满足消费者的个性化,多元化需求,是品牌商需要考虑的第一要素,而通过谁来分销,其实并不重要。

    品牌商开发出满足100万人,1000万人,1亿还是10亿人的商品,在未来,仅仅是渠道覆盖密度,和分销精准度的问题。原来的商品,生产出来,理论上讲是要满足14亿人口的消费需求的,那么,就需要专业化,专门的经销商,甚至是独家专业代理的经销商,专业分销该商品,从而实现商品对市场的高密度无缝覆盖。

    而满足100万人的这类大长尾个性化商品,可以考虑在B2C渠道,甚至是微商渠道来分销,而介于 B2C和传统经销商、在大众和小众之间的一些“次小众”商品,既需要具备线下传统分销能力,又需要像B2C一样,可以实现较轻模式下的大面积覆盖,还能够实现数据支撑,那么,只有 B2B 才能实现。

    过去没有 B2C 和 B2B,品牌商只能生产受众人特别多的商品,而在未来,当大众消费品需求在下滑,而新的消费需求在崛起的时候,谁能够抓住这波消费升级机会,利用好 B2B 和 B2C 去满足个性多元的消费者,谁就会是未来消费品行业的霸主。

    来源:新经销 作者:赵波

  • 阅读全文
    分享