编者按:在当今的数字时代,职业竞争日益激烈,怎样才能让自己的简历充满亮点,在职业竞聘中脱颖而出呢?最好是要有做大数据处理的经历!如果我们有了这样的经历,那么它就成了证明自己能够胜任某项工作的有力证据。本文列出了7个我们在空闲时间就可以着手去做的数据科学项目。做了其中的任何一项,都会提升自己的简历。为了找到自己梦想的工作,立即提升自己的简历吧!本文来自翻译,希望对您有帮助。
当前,数据科学是一个热门领域,做数据科学有关的项目是证明自己足以胜任某一份工作的最好方法。
在这篇博文里,我们可以看到利用空闲时间就能做的7个数据科学项目,这些项目,会给我们的简历增加亮点,让它在众多简历中脱颖而出。
1. 回归(Regression)
我们可以着手去做的第一个项目是以回归为基础的项目。回归可以用来确定两组变量之间关系的强度。
换句话说,它能够用来计算当一个变量发生变化时,另一个变量变化了多少。回归已成为数据研究者使用的非常重要的工具。
如果想要创建一个回归项目,最好使用一个自己感兴趣的数据集,并尝试确定不同变量之间的关系。
我们能做的一些回归项目内容如下:
(1)确定身高和体重之间的关系。
(2)确定收入与学历之间的关系。
(3)确定投票行为与年龄之间的关系。
(4)确定高中生成绩平均绩点(GPA,Grade Point Average)与高考(SAT, Scholastic Aptitude Test and Scholastic Assessment Test)成绩之间的关系。
以上这些项目,每一个都可以在相对较短的时间内创建完成,在创建过程中也会让我们更好地理解回归是如何运算的。
2. 分类(Classification)
我们可以着手去做的下一个项目是分类项目。分类项目将帮助我们了解如何使用机器学习算法将新的数据分类到一个预定义的类别里。
对于一名数据研究者来说,了解分类非常重要,因为在许多不同的应用程序中,比如图像识别和文档标记,都会运用到分类。
我们能做的一些分类项目内容如下:
(1)将图像分成不同的类别。例如,我们可以使用机器学习算法将动物图片分成哺乳动物、鸟类、爬行动物等不同的类别。
(2)将文本分成不同的类别。例如,我们可以使用机器学习算法将《纽约时报》(New York Times)上的文章分成政治类、商业类、体育类等不同的类别。
(3)将邮件分成不同的类别。例如,我们可以使用机器学习算法将电子邮件分为“垃圾邮件”或“非垃圾邮件”。
(4)将博客文章分成不同的类别。例如,我们可以使用机器学习算法将高流量网站上的博客文章分为“积极的类别”或“消极的类别”。
3. 聚类(Cluster)
聚类是一种没有任何现成模式可供参考或依循的学习算法,它根据数据点的属性将数据点分在同一个组里。这类项目将帮助我们理解如何在数据集中识别特定的集群,并使用基础集群算法将数据中的项目分组到簇或类中,使探索大型数据集的工作变得更容易些。
对于一名数据研究者来说,了解聚类非常重要,因为它在市场营销、欺诈检测等各种应用程序中都被广泛应用。
我们能做的一些聚类项目内容如下:
(1)对推文按主题进行聚类。这可以用来了解关于各种话题的公众情绪,或者跟踪Twitter上的信息。
(2)按类型对电影或电视节目进行聚类。例如,我们可以在IMDB数据集中对电影类型进行聚类,从中发现与我们最喜欢的电影类型相似但不完全相同的新的电影类型。(例如,浪漫喜剧和戏剧)
(3)根据产品类型对杂货店里的商品进行聚类。(例如,洗衣粉和除臭剂)我们可以根据属性(品牌、大小、颜色)的不同将各物品聚类到各个数据集中。
(4)进行有针对性的营销活动,对顾客进行细分聚类。例如,我们可以根据客户的购买历史或人口信息对他们进行聚类。
4. 情绪分析(Sentiment Analysis)
情绪分析是对文本中所表达的态度和情感进行识别和量化的过程。
对于一名数据研究者来说,了解情绪分析非常重要,因为运用情绪分析可以洞察客户反馈、产品评论甚至是股票市场趋势。
我们可以着手去做的情绪分析项目内容如下:
(1)分析客户反馈的数据,从中识别出积极情绪和消极情绪。例如,我们可以通过查看客户对新产品的评论,来找出频率最高的差评和好评。
(2)分析Twitter数据,来了解情绪是如何随着时间而变化的。例如,我们可以在几周或几个月的时间内追踪Twitter上关于某一特定话题(如总统选举)的情绪。
(3)将影评分为正面的或负面的。例如,我们可以应用文本分类算法将来自“烂番茄”(Rotten Tomatoes)的评论分为“新鲜的”(正面的)和“腐烂的”。(反面的)
(4)识别Twitter上关于自己的公司及竞争对手的情绪。例如,我们可以追踪Yelp对某一产品的评论,并确定人们的情绪是如何随时间而变化的。
5. 推荐系统(Recommender System)
推荐系统用于对产品和服务进行个性化推荐。
对于一名数据研究者来说,了解推荐系统也是很重要的,因为推荐系统可以帮助企业将其营销活动个性化,提高客户的参与度。
我们可以着手去做的一些非常实用的推荐系统,如下:
(1)构建电影推荐系统。例如,我们可以构建一个算法,根据用户对以前看过的电影的评分来推荐新电影。
(2)建立亚马逊产品推荐系统。这可以通过使用诸如交替最小二乘(ALS,Alternating Least Squares)算法这样的算法来实现。
(3)为公司或零售网站建立产品推荐系统。例如,我们可以把不同的产品链接在一起,从中推荐同一类别的产品。(例如,“如果你喜欢这个产品,你也会喜欢这些”)
(4)构建旅游推荐系统。例如,我们可以使用位置数据来推荐用户所在位置附近的娱乐活动或餐馆。
6.自然语言处理(NLP,Natural language Processing)
自然语言处理是从文本数据中理解和提取信息的过程。
这一类项目将帮助我们理解自然语言处理的基础知识,以及如何从文本数据中提取信息。
对于一名数据研究者来说,了解自然语言处理非常重要,因为运用自然语言处理可以分析客户反馈、产品评论,甚至法律文件。
我们可以着手去做的一些自然语言处理项目内容如下:
(1)分析客户反馈数据,了解客户是如何用自己的话来描述产品或服务的。(例如,反馈中是否包含积极的或消极的关键词?)
(2)从法律文件中提取信息。(如:合同要点的提取)
(3)从亚马逊的产品描述中提取信息。(例如:提取对产品的特性和优点的描述)
(4)从推文中提取某一公司或其竞争对手的信息。
7. 人工神经网络(ANN,Artificial Neural Network)
人工神经网络是一种类似于大脑神经处理信息的机器学习算法。
它是由相互连接的神经元组成。通过这些神经元可以学习和识别数据模式。我们通常运用人工神经网络进行图像识别或自然语言处理等。
人工神经网络有许多不同的类型,所以我们要选择一个适合自己的特定数据集和用例。
我们可以着手去做的人工神经网络项目内容如下:
(1)构建简单的人工神经网络识别手写数字。
(2)训练人工神经网络预测股票市场价格。
(3)构建神经网络,将图像分成不同的类别。(如狗或猫)
(4)训练神经网络识别文本文档的语言。
立即提升自己的简历
感谢大家阅读此文!如果大家需要提升自己的简历,可以考虑去做这7个数据科学项目中的任意一个,来让简历脱颖而出。
从构建人工神经网络或自然语言处理算法,到分析客户反馈和产品评论,这些项目能够以多种方式展示我们的大数据处理能力。
译者:甜汤