【视频课】Python爬虫与文本数据分析

2019·国庆·杭州 | Python爬虫与文本分析工作坊 & 课题申报高级研修班

随着大数据的普及,网络数据资源真正成为一种潜在的宝藏,让我们非计算机专业背景的人也可以借助  机器学习、人工智能 等相关方法对问题进行研究。

传统的结构化数据,拿来就可以进行分析。但是网络上的文本数据,由于属于 非结构化数据 ,需要我们使用一定的技术和方法将其转化为计算机能够理解的特征信息,然后我们才能对其进行分析。

文本分析(自然语言处理) 是当今人工智能研究 和应用的重要方向。 本课程主要起到帮助大家了解 文本分析、简单入门自然语言处理 本课程结合 十几个案例 ,将每部分中学到的知识通过实战方式加深各位对知识的理解,具有极强的实用性,内容涵盖了文本分析的重要方面,为相关应用的开发和研究提供了很好的参考价值。

购买方式

  • 原价 29 9 元,现在限时特价 199 元。

  • 购买后可发起组队, 组队成功的 队长可 全免学费

  • 扫下方二维码生成自己的课代表分享卡还有机会每单 赚23.88

  • 邀请卡1个月有效期,失效后可加微信:372335839, 备注"网课"

课程目标

  • 学会Python语言基本语法

  • 掌握Python爬虫基本原理

  • 会设计和开发Python爬虫

  • 掌握文本分析相关库

  • 理解数据挖掘,特别是文本分析的思路和流程

  • 了解文本分类、文本聚类

主讲老师

大邓, 哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学做  网络数据采集和文本分析  分享 ,运营有【公众号:大邓和他的Python】,主要分享Python、爬虫、文本分析、机器学习等相关内容。

适合人群

本课程面向对象有:

  • 0编程基础

  • 想从网上爬数据

  • 想做文本分析

  • 想了解机器学习

包括但不限于以上几类人群。

内容要点

第一部分 环境配置(1小时)

  • python简介

  • python安装

  • pycharm安装

  • jupyter notebook安装

  • 第三方库安装方法

第二部分 Python快速入门(2小时)

  • 基本语法

  • 数据结构-list、str、dict、tuple、set

  • for循环、if逻辑

  • try-except

  • 常用函数

  • 案例1:爬虫代码中各知识点使用情况

  • 案例2:文本分析代码中各知识点使用情况

第三部分 Python网络爬虫快速入门(2小时)

  • 网络爬虫原理

  • requests库

  • bs4库

  • 元素(数据)定位

  • 数据抓包

  • 数据存储(txt,csv)

  • 案例1:豆瓣网数据 抓取

  • 案例2: 知乎网站数据抓取

第四部分 快速入门Python文本分析(1.5小时)

  • 文本分析应用场景

  • txt、pdf、word等类型文件的数据读取

  • 中文分词-jieba库

  • 自然语言处理-nltk库

  • 可视化-pyecharts库

  • 数据分析-pandas库

  • 案例1-词频统计

  • 案例2-制作词云图

  • 案例3-excel文件中时间及文本数据处理方法

  • 案例4-给予情感词典进行情感计算

第五部分 文本分析进阶篇(1.5小时)

  • 监督学习与非监督学习

  • 使用机器学习进行文本分析的步骤

  • 表达文本数据信息的方式(独热编码、词袋法、TF-IDF)

  • 理解特征矩阵、语料、文档、特征

  • 机器学习库-sklearn语法学习

  • 了解协同过滤-推荐系统

  • 案例1-文本情感分析

  • 案例2-文本分类(以20news数据集为例)

  • 案例3-LDA话题模型

  • 案例4-计算消费者购物偏好

学习课程时,可以参考阅读以下文献,做到文本分析思维的落地。

应用文本分析技术的相关文献

沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用: 一个文献综述[EB/OL]. http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm ,2018-11-19

Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230.

王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

Chan J T K, Zhong W. Reading China: Predicting policy change with machine learning[J]. 2018.

Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

本课程将有对应的线下授课,具体信息可点击下方蓝色字查看

2019·国庆·杭州 | Python爬虫与文本分析工作坊 & 课题申报高级研修班

我来评几句
登录后评论

已发表评论数()

相关站点

热门文章