SEO推广代运营

首页 > SEO推广代运营 > 正文内容

初创公司的五种数据采集策略(采集企业数据)

襄助网络2天前SEO推广代运营486

ies-for-startups/

快速引发数据网络效应的情况下(更多的用户→更多的数据→更智能的算法→更好的产品→更多的用户)。

避开这种两难处境的一个方法是大幅缩小问题域(如果以后有需要再扩大范围)克里斯·迪克森(Chris Dixon)说:“你需要的数据量与你试图解决的问题广度有关”原文翻译:用于机器学习用途的数据,其“不合理的有效性”引发了多年的广泛争论。

初创公司的五种数据采集策略(采集企业数据)

也有观点认为,制约人工智能(AI)领域很多重大突破的,并非算法不够先进,而是缺乏高质量数据集想要开发出最先进的机器学习技术,数据至关重要,这是贯穿那些讨论的共同主题对于在业务中将机器学习作为核心技术的初创公司来说,能否获得高质量的训练数据极为关键。

虽然很多算法和软件工具都的算法→更好的产品→更多的用户)。

所以,如何创建高质量数据集以用于训练学习算法,这是机器学习初创公司必须作出的一个重要的战略决定不幸的是,在刚开始的时候,初创公司的标记数据常常十分有限,甚至缺失,为他们在数据驱动型产品的打造上取得重大进展增添了阻碍。

因此,在聘请数据科学团队或者部署昂贵的核心设施之前,有必要从一开始就研究制定好数据采集的策略很多方法都可以帮助初创公司克服数据采集的冷启动问题数据策略

以下是五种数据采集策略,虽然并不详尽,且多少互有重叠,但能让你对很多可用的方法有一个直观的感受策略一:人工作业从零开始创建好的专有数据集,几乎永远意味着预先投入大量人力采集数据,执行难以规模化的人工任务。

靠蛮力开路的初创公司有很多例如,很多聊天机器人初创公司聘请人类担任“AI训练师”,让他们手动

只要数据网络效应在某个时候生效,所需人力不再跟随客户数量同步增加,那么用蛮力来手动标记数据点的策略就能取得成功一旦AI系统的进步速度够快,不明确的异常值就会变得更少,进行手动标记的人员数量就可以减少或者保持不变。

适用于:几乎所有的机器学习初动标记建筑物图片)

策略二:缩小范围大多数初创公司都会试图从用户那里直接采集数据,但问题在于,在机器学习的好处尚未全部体现出来之前,会很难说服早期采用者使用产品(因为先要有数据才能训练和改进算法)避开这种两难处境的一个方法是大幅缩小问题域(如果以后有需要再扩大范围)。

克里斯·迪克森(Chris Dixon)说:“你需要的数据量与你试图解决的问题广度有关”关于缩小范围的好处,聊天机器人再次成为很好的例子这个领域的初创公司可以在两个市场进入策略之间做出选择:一种是打造水平型虚拟助手,也就是帮助解答很多问题并响应即时请求的机器人,例如Viv、Magic、Awesome、Maluuba和Jam一种是打造垂直型虚拟助手,也就是力求极为出色地完成某项明确具体工作的机器人,例如x.ai、Clara、DigitalGenius、Kasisto、Meekan和近期的GoButler。

虽然两个方法都可行,但解决闭域问题的初创公司在数据的采集上要容易许多适用于:垂直整合型公司例子:* 高度专业化的垂直型聊天机器人(比如x.ai、Clara和GoButler)* Deep Genomics(利用深度学习技术对基因变异进行分类和解读)

nical Turk和CrowdFlower等pingtai就是利用无数的zaixian劳动力来清除无效和不完整数据的。

比如,VocalIQ就是通过Amazon Mechanical Turkpingtai,向自己的虚拟助手输入成千上万个用户提问此外也可以将工作人员外包,雇佣其他的独立合同工(Clara和Facebook M就是这么做的)。

采用众包策略的必要条件是,任务必须解释清楚,并且不能太过费时和枯燥另一个方法是激励民众自愿提供数据比如,位于巴黎的人工智能初创公司Snips就是通过这种方法获得特定类型的数据的(餐馆、酒店和航空公司的确认邮件)。

和其他初创公司一样,Snips使用了一种游戏化的系统,会将用户在积分榜上进行排名适用于:可以轻松实施质量控制的用例例子:* DeepMind、Maluuba、AlchemyAPI和其他很多公司* VocalIQ(利用Mechanical Turkpingtai教导自己的虚拟助手人类的交谈方式)

* Snips(让人们免费提供数据以供研究)策略四:副业计算机视觉初创公司似乎特别喜欢的一种策略,就是提供一款面向消费者、针对特定领域的免费移动应用Clarifai、HyperVerge和Madbits都采用了这种策略。

他们推出照片应用,以便为他们的核心业务收集更多的图像数据这种策略并非完全没有风险(毕竟,应用的开发和推广也要花费时间和金钱)初创公司还必须确保他们创造的用例充满吸引力,足以让用户甘愿交出他们的数据,哪怕这项服务在一开始缺乏数据网络效应。

适用于:企业创业/水平pingtai例子:* Clarifai(照片发现应用Forevery)* HyperVerge(照片组织应用Silver)* Madbits(照片拼贴应用Momentsia)策略五:公开可用的数据集

了多年采集网络信息而得到的免费原始数据,容量高达几PB另外,雅虎和Criteo等公司已经向研究团体发布了庞大的数据集(雅虎发布了13.5 TB的未压缩数据)。

随着近来公开可用的政府数据集(在奥巴马政府的带头下)大量增加,免费开放的数据源正在变得越来越多几家机器学习初创公司已经在利用这类公开数据奥伦·埃齐奥尼(Oren Etzioni)初创Farecast时,使用的样本包含1.2万个价格观察值,这些是他从一家旅游网站的信息中搜刮出来的。

同样,SwiftKey在起初的时候从网上收集了数TB的数据并加以分析,从而建立起自己的语言模型适用于:能够找到相关公开数据集的初创公司例子:* Farecast(第一版的数据来自于一家旅游网站)* SwiftKey

(从网上收集数据建立语言模型)* Jetpac(利用公开的Instagram数据开发移动应用)还有很多其他的数据采集策略没有在本文中提及初创公司也可以利用几个算法技巧避开数据问题(比如MetaMind采用的迁移学习)。

不管你使用哪种策略,关键在于获取和拥有针对特定领域的庞大数据集,用以打造高准确度的模型,这是创业者在开始时唯独最难解决的问题

相关文章

有些SEO会通过堆积关键词来做网站优化

有些SEO会通过堆积关键词来做网站优化

  有些SEO会通过堆积关键词来做网站优化,这么做是对网站优化有一定的影响的。那么网站SEO优化中关键词密度要如何控制    一网站内容页关键词密度    网站内容页的关键词一定只能够是适当添加,因为...

收集好的seo数据应该怎么进行分析

收集好的seo数据应该怎么进行分析

今天我们一起来说说收集好的seo数据应该怎么进行分析  一自身及竞争对手网站外部可统计查询数据:  这些数据分析是作为一个SEO分析自身网站和竞争对手最常用也是最基本的能力。通过这些数据(一定时间...

seo快速排名的方法

seo快速排名的方法

我们刚搭建了一个网站,就需要研究获得搜索排名和入站流量的方法,很多站长仍然在努力为网站建立流量,但是却依旧没有好的关键词排名,只能说方法不对,再怎么操作都不太好见效,那么seo快速排名的方法是什么呢1...

微信公众号文章seo

微信公众号文章seo

微信公众号文章SEO优化:如何提升你的公众号影响力微信公众号文章,如何优化SEO在信息爆炸的时代,如何让你的公众号文章脱颖而出,吸引更多读者关注或许你曾经问过自己:为什么我的文章阅读量一直上不去其实,...

互联网SEO优化口碑好

互联网SEO优化口碑好

互联网SEO(Search Engine Optimization)优化是指通过对网站的内容结构和其他相关要素进行有针对性的调整,以提高在搜索引擎结果页面上的排名,并获得更多的有针对性的流量和用户点击...

如何利用流量的上升来提高百度的权重

如何利用流量的上升来提高百度的权重

如今,很多网站在关注谷歌公关的同时,更注重百度权重的提升,每天在论坛上,都有很多站长在问如何快速提升网站权重,但答案大多是外链原创内容等。其实,当站长每天查询自己的网站时,只要多加小心,就会发现权重的...

现在,非常期待与您的又一次邂逅

我们努力让每一次邂逅总能超越期待