2019 第三届中山大学“计算社会科学讲习班”

发布人:蒋文涵
活动时间
-
活动地址
中山大学南校园(广州市海珠区新港西路135号)

 

2019 第三届中山大学计算社会科学讲习班

 

 

 

    时间:2019721731

地点中山大学南校园(广州市海珠区新港西路135

主办单位中山大学社会学与人类学学中山大学社会科学调查中心,

          中山大学国家治理研究

报名方式:请点击报名链接https://www.wjx.cn/jq/41604778.aspx 或扫描  

          方二维码填写报名表

无

 

报名截止时间:2019712400

 

大数据时代的到来使得社会科学研究发生了重大变革。一方面大数据的出现为社会科学研究提供了传统社会调查方法无法获取的海量的新的数据,这些数据呈现规模大、时空跨度大、来源多范围广、多元化等特征,使得社会科学的分析对象由传统的截面数据主导,变为截面数据、时间序列、面板数据、空间数据、文本数据、网络数据并存的格局。另一方面,大数据时代的到来也促进了数据提取、挖掘和分析技术的迅速发展,也给社会科学带来了方法论革新机遇。在大数据时代背景下,计算社会科学这一新的社会科学研究范式(或者说新的交叉学科)应运而生为推动计算社会科学在中国的发展,培养计算社会科学的研究者,中山大学社会学与人类学学院将于2019年暑期举办第三届“计算社会科学讲习班”

讲习班采用教员授课与学生实践相结合的形式进行。课程将以密集教学形式,通过四个专题课程和一个主题讲座对计算社会科学中重要的数据来源、分析工具、研究方法和研究实例进行介绍,让学员在短时间内掌握实用的大数据分析理论和工具。在实践环节,我们将组织学生通过组队比赛的方式对教学内容进行实践,评选出优胜队伍,颁发荣誉证书。

讲习班不收取任何课程费用,所有学员食宿需自理。我们热诚欢迎国内各高等院校和科研院所的青年老师、博士、硕士研究生报名参加

 

 

 

课程安排

专题

主题

时间

专题一

机器学习:理论与实践

7.21

7.22

7.23

专题二

文本数据处理与建模

7.24

7.25

比赛 1

分小组针对专题一、二进行比赛

7.26

专题三

大数据、机器学习的人文社科应用

7.27

7.28

专题四

社会科学家的人工智能工具箱

7.29

主题讲座

大规模在线社交网络上的计算传播学

7.30 上午

比赛 2

分小组针对专题三、四进行比赛

7.30 下午

7.31 上午

结业

颁奖仪式暨散学典礼

7.31下午

 

 

课程内容介绍

 

专题一机器学习:理论与实践

    传统的社会科学的量化实证研究主要基于理论驱动,研究者提出研究假设,通过数据分析来对研究假设进行验证。而在大数据时代,这种依靠人的智能理论驱动的研究范式无法处理维度、动态变化的数据,因而存在很大的局限性。而随着人工智能的发展,机器学习方法以数据驱动的范式,凭借计算机强大的计算能力可以复杂的数据进行分析,成为学术研究中不可或缺重要工具和驱动力。

    本专题将结合具体的研究实例机器学习的重要概念方法原理进行介绍,并结合Stata软件学员最快的速度上手机器学习。本课程将结合案例讲解以下内容: (1) 机器学习的基本概念;(2) 各类有监督和无监督学习;(3)集成学习(4)神经网络;(5)基于机器学习的因果推断前沿技术。

 

专题二文本数据处理与建模 

    大数据时代,海量关于人们所做、所知、所想以及所感觉的信息被保存于数字化文本之中,这些数字化文本类型丰富,不仅包括网站和社交媒体的信息,同样包括数字化书籍、政府或公司政策文件、访谈文本等文本数据,数字化文本数据的积累使社会科学学者可以从更细的颗粒度、更大的样本规模上持续性的捕捉所感兴趣内容的长期变化。海量文本数据,在为社会科学带来研究机会的同时,也为如何基于特定研究目的选择合适的文本数据并使用合适的文本建模方法加以分析提供了新的需求。

针对不同来源的非结构化的文本数据,本专题尝试梳理文本挖掘技术的发展及其stata实现,并结合研究实例探讨其在社会科学中的适用性和具体应用场景,主要内容包括:(1)文本数据预处理与描述性分析;(2)语义网络分析;(3)基于LSA的文本相似度计算;(4)无监督模型原理介绍与stata实现。

 

专题三:大数据、机器学习的人文社科应用  

    在当代人文社科研究的前沿,出现了新型的重要数据来源和研究范式。其中,大数据的出现为人文社科定量研究提供了新的资料,使得人文社科定量分析的对象,由传统的截面数据主导变为多元数据并存的格局,使得社会分析的层次从个体微观主导向宏观群体层面拓展,有力推进了定量分析的深度、广度和理论高度。而机器学习等新方法的引入则使得社会科学定量分析的学科宗旨出现了全新的拓展:从传统的关联分析、因果分析,走向基于数据资料的社会预测。预测范式的产生,是社会科学的内在必然要求。基于机器学习的社会预测,具有重要的学术和政策价值,将成为人文社科定量分析的重要新型范式。

    利用近千万书籍的文本语料库、新闻数据库和各类互联网搜索引擎、自媒体平台资料等大数据,利用监督学习、无监督学习等机器学习方法和思路,当下人文社科和社会治理研究的深度与广度得到快速拓展。无论是阶层阶级、意识形态、社会信念、社会网络、社会行为等经典社会科学概念和理论,还是城市发展、社会治理、舆情传播、量化历史、流空间体系、文化软实力等跨学科领域,陈云松教授及其团队近年来的一系列研究,初步展示了海量数据和机器学习方法对于推动人文社科发展和助力社会治理的重要价值。本专题将通过案例解读、思维梳理、案例展示,以及具体实战方法、编程演练的结合,详细讲授如何进行大数据分析与基于机器学习的社会预测,充分展示如何理解大数据背后的关键信息、如何利用大数据提取出传统方法难以企及的信息资料、如何用大数据思维和机器学习方法来助力社会治理和拓展人文社会研究新疆域。

 

专题社会科学家的人工智能工具箱 

    互联网技术以一种“元驱动力”的结构定位不断推动着社会形态的变革,逐渐走向鼎盛。人工智能作为“后互联网时代”的显著技术特征,也已经开始显露端倪。2017年,国务院发布《新一代人工智能发展规划》,提出“到2030年,使中国成为世界主要人工智能创新中心”,意味着人工智能正式上升为国家战略。事实上,近年来,中国在人工智能领域密集出台相关政策,更是在20172018以及2019年连续三年的政府工作报告中提及人工智能。无庸置疑,人工智能时代已来。

从技术的角度来看,人工智能借助标注数据和先验知识获得快速发展,突出体现于感知智能和认知智能,分别对应以机器学习尤其是深度学习为代表的联结主义和以知识图谱中逻辑表示和推理为代表的符号主义。此外,人工智能引发的伦理讨论日益进入社会责任的议程,这同样需要在技术层面考量和落实伦理的要求。为推动人工智能在社会科学领域中的理解和应用,发展计算社会科学,开拓大数据与社会科学研究结合的策略视野,最终提高研究的创新水平和工作效率,本课程结合具体案例讲解以下内容:(1)基于深度学习的自然语言处理和图像理解,零算法基础定制高精度AI模型;(2)知识图谱在社会计算中的应用;(3)机器学习中与公平性相关的技术措施,降低出现负面后果的风险。

 

专题讲座大规模在线社交网络上的计算传播学  

    Online social networks have emerged as an important medium for the spread of information and influence, and have been used in political campaign, marketing, disaster relief, social sensing, etc. All these important applications rely on how information spreads in social media networks. Most studies assume that information spreading is a percolation process and large cascades occur only when the retweet probability of information items exceeds the percolation critical point, also known as the tipping point. However, whether this widely used hypothesis is valid in current large-scale social media remains unclear. Here we continuously observe 192 thousand usersretweeting behaviors in Weibo, the biggest microblog social medium in China, for half a year, crawl 99 million usersfriendship data, almost the whole network, and collect a large number of information tracks in the same period of time. We find that the cascading threshold is only one tenth of that theoretically obtained previously, and 98.4% of the information items that have led to outbreaks in real social media could be incorrectly predicted to be at non-outbreak states by the existing theories, meaning that the capacity of social media to spread information has been seriously underestimated. Through systematic analyses we discover a positive-feedback coevolution phenomenon between user retweet activity and network structure, which is driven by individualsimmersion in using social media. We also detect this immersion behavior in a large sub-network of Twitter. Incorporating the coevolution mechanism into network percolation theory, we offer a novel model that is able to predict the tipping point and the cascading size in good agreement with empirical data. Our findings unveil the extra-structural capacity of social media to spread information, applicable to a wide range of problems pertaining to information cascades on networks.