最近刚入手了陈强的《机器学习及python应用》,准备有时间就看一页,把笔记和想法写下来,以便自己复习和网上大佬指点迷津。
陈强大佬在前言里说的话让我激动与欣慰,作为一个在一个普通一本学校的刚读研一的菜鸟,第一次认识机器学习是在一次组会上一个本科学弟发表的论文,当时让我大为震撼和激动,没想到经济学也可以与计算机甚至人工智能相结合,一直受他人“经济学就是文科人在讲故事”非议之苦的我顿时觉得这就是经济学未来的方向,但又有所迷茫,我能否掌握这门看似高深的学问呢?陈强大佬的话让我惊喜,我并不是少数关注机器学习的经济人!他的话鼓舞了我,因此我决定,即使机器学习并不是我目前的方向,但是我也要把它当做重要的知识去学习。不仅是兴趣,更是一个经济学萌新对跳上更高水平的台阶的渴望。
希望自己能够坚持下去,有空就写一写,哪怕一个知识点也好,直到学完为止,然后用它来发一篇文章,给自己的努力一个交代
机器学习是指让计算机具备从大数据中学习的能力的一系列方法。机器学习源于人工智能(artificial intenlligence,AI).
(1)硬编码和学习:
硬编码是指人类直接把规则告诉计算机,计算机根据这些死规则处理数据。
比如利用计算机进行垃圾邮件分类,人们可以通过设置含有“抽奖”等字眼的短信为垃圾信息,计算机就会把含有关键词的短信自动列为垃圾短信。但这种硬编码做法并不高效,因为很多垃圾短信的内容五花八门。
学习则是人类将数据交于计算机自行判断,计算机通过自己学习大量数据从而总结出结果。
比如实现将标注为“垃圾短信”和“正常短信”的短信输入电脑,电脑根据大数据中“垃圾短信”中特征出现频率来总结哪些关键词是“垃圾短信”的关键词,一个垃圾邮件通常包涵很多关键词,这时候通常可以使用数学方法,如“朴素贝叶斯”,通过垃圾邮件的一个特征,算出该短信为垃圾短信的条件概率,再将各种特征综合起来,算出短信为垃圾短信的概率,加入概率超过临界值(如0.9),则将该短信列为垃圾短信。这种方法就叫“贝叶斯垃圾邮件过滤”
(2)大数据与机器学习
机器学习通过大数据来进行学习,显然数据越多,机器学习的效果越好,并且数据可以根据时间动态更新。
学习书目:陈强《机器学习及python应用》



