时间:2023-12-12 20:31 所属分类:写作指导 点击次数:
2017 年夏天,我参加了哈尔滨工业大学的“ 大数据与商务分析” 暑期学校。关于那段日子的记忆是炎热、匆忙和充实的,我收获了许多东西,尤其是科研思路方面。
学校邀请的讲座学者都是数据科学和信息管理研究方面的专家。我如同刘姥姥进大观园一般眼花缭乱,看什么都觉得新奇有趣。我提的许多问题,如果自己尝试解决,花费的精力和机会成本都是巨大的,而这些有所迷惑的地方,我都从诸多专家那里获得了答案。即便有些地方不是一两句话就能说清的,热心的学者们也给了我充分的指引。
回津后我认真整理笔记,按图索骥地读书、看文章,希望把思路理清,并且记录下来。我希望把自己在科研领域认知升级的过程记载清楚、记录完整,也把这些收获和感悟分享给你。希望你和我一样,充分利用好各种机遇,在科研之路上精进前行。
这篇文章聚焦于科研选题。
我大致归纳了 5 种常见的选题导向,并帮你一一剖析。希望本文能有助于你的开题和今后的科研。
01为什么“方法导向”不适用于科研选题
在剖析我推荐给你的5 种选题导向前,我们先看看许多科研初学者容易犯的一个错误:以方法为导向进行科研选题。
有的学生在课堂上学过一些研究方法后,便开始套用还是一知半解的方法和工具,得到一堆来源可疑的数据,然后扔到统计软件里,等着漂亮的结果奔涌出来。更有甚者,方法、数据和研究题目都不匹配。
这样做能得到一项科研成果吗?当然不能。你通常会看到下面这样一个3 段论。
大前提:狗都有 4 条腿。
小前提:我家的猫有 4 条腿。
结论:我家的猫是1 条狗。
有这样一句俗语用来形容这种错误:“To the one with a hammer, everything looks like a nail.”
翻译过来就是,“当你手里拿着一把锤子的时候,看什么都像钉子。”
你可能觉得自己学过的东西更高级一些,不会犯这些毛病。例如学了爬虫(Crawler),你就可以随心所欲地找自己需要的研究数据了,根本无须去伪造数据,或者担心别人填写你的问卷的时候胡乱应付;学了 R,你就可以做出非常漂亮的回归分析结果和图表了,甚至能处理时间序列;掌握了机器学习,你就可以让机器替你干累活儿,帮你快速分析出决策树、做出词云了,甚至是做文本情感分析与主题发现……
但是,即便这样,也请你记住—— 无论多么时髦和高级的工具, 都不应该成为你的论文选题的起点。
例如,你需要对数据构建模型,进行分类预测。你手里已经掌握的数据是结构化的。你可以把数据想象成一张 Excel 表格,其中包含许多特征列,以及对应的分类。这时候,可以选择的分类方法有很多,例如逻辑回归、决策树、随机森林和 SVM 等经典机器学习方法,这些就完全可以解决问题了。但是有的同学觉得这些方法不够酷、不够时髦,放眼望去,深度学习(Deep Learning)方法好像也可以做表格数据的分类,“ 就选它了”。
之后,你在论文的文献回顾部分写了大量关于“ 深度学习”优点的内容,把这种更为复杂的方法吹得神乎其神,自己读来感觉热血澎湃。其实你自己好好审视一下,那些深度学习模型在图像识别、自然语言理解方面的突破和你的研究真的有关系吗?
如果光看深度学习模型最终获得的分类结果指标,好像还不错, 但只关注单一结果数据是没有意义的。比较模型分类结果的标准,应该是同样的测试数据用不同模型得到的分类结果的对比。
这一对比,你立刻发现问题了——花了更长时间训练出来的深度神经网络模型,居然比经典模型的结果还要差。前面所有的吹嘘和最终的结果大相径庭。这样的文章显然连投出去的价值都没有。这是为什么呢?
原因可能有很多,但其中一个常见的原因是,你的数据不够多。深度学习模型有很多的参数,需要在训练中调整。这种调整需要足够多的数据支撑。你的数据不够多,模型没有办法抓住数据特征的规律,于是它开始“ 死记硬背”答案,专业术语叫作“过拟合”(Over-fitting)。做练习的时候,你的深度学习模型看起来非常厉害,可是测试的时候,面对没有见过的题目(新数据特征), 它就“ 现了原形”。
所以,选择研究方法,绝对不是哪个新、哪个复杂、哪个酷炫, 就选哪个。拿着新颖的研究方法把数据“ 拷打”一遍,然后牵强附会地说明自己研究的独特性和价值,更是无稽之谈。研究方法要和研究问题、数据特征等环境相匹配,才是最好的选择。
把“ 分析法思考,综合法证明”的那一套要小聪明的做法暂时收起来,否则你就会一叶障目,找不准自己的起点,结果就是做出了一大堆劳动成果,却没有解决任何值得解决的问题。
选择某种方法时,一定要问自己以下几个问题。
为什么要使用这种方法?是因为自己熟悉吗?还是因为别人不熟悉?
这个问题是否适用于这种方法?有没有其他方法可以更好地解决该问题,即便这个方法你并不熟悉。
你能获取这种方法需要的数据吗?这些数据通过该方法的处理,能否得到你需要的结果?
选题、做题都是有机会成本的。把时间花费在值得的事物上。切记。
研究要有目的。最重要的目的是解决一个具体或抽象的问题,而且这个问题还应该有价值和意义。我这样说,不是让你停止学习研究方法。恰恰相反,研究方法不仅要学,还一定要多学。但是学过之后,要摒弃“ 一定要应用某一方法”来做研究和写论文的执念。
纽约大学斯特恩商学院 Heinz Riehl 讲座教授艾宁德亚·高斯(Anindya Ghose)说,只有你掌握的研究方法足够多,工具箱里有各种各样不同工具时,你才不会执着于某一种方法,而是会根据问题筛选合适的解决途径。
看来方法导向对论文选题不适用。那怎么办呢?很多人会抢答说“ 就用问题导向”。说的没错,但是仅仅说“ 问题导向”其实缺乏可操作性,我们还应清楚问题从哪里来,该怎样寻找其来源。
通过和一流学者的交流,以及阅读文献,我梳理出问题来源的以下几种常见类别。
·文献导向。
·数据导向。
·实践导向。
·协同导向。
·系统导向。
下面我来当导游,带你在不同的问题来源中游览一番。希望聪明的你可以掌握它们,并且找到适合自己的问题寻找途径。
02文献导向
做研究、写论文需要读文献,这是常识。许多研究者会建议你从文献中发现问题。这也是一种公认的途径。
文献研究实际上是学者们跨越时空的对话。这种特殊的对话形式,不仅要求作者梳理相关的历史文献,还得在论文末尾标注文章的限制和未来需要做的研究,即所谓的“展望”。
很多导师会让学生从文献着手发现别人的研究局限,然后通过突破这些局限,替别人把展望变成现实,从而做出属于自己的原创性研究。这种方式好不好?理论上是好的,也确实有一部分人通
过这种方式找到了好的选题。毕竟作者在论文结尾放这么一部分内容,本意就是给后来人提供合适的路标并指出前进的方向。
然而,现实往往是复杂的。许多经验丰富的研究者对此心知肚明,却因为各种原因不愿意或者没有找到合适的途径告诉你。
在现实世界的更多情况下,那些“ 限制”“ 展望”其实不是实在的路标,而是研究者望洋兴叹的产物。他们就如同《笑傲江湖》里面的魔教长老一样,手持利斧开山数百丈,却依然没有找到出口。研究者与长老不同的是,他们并没有继续前行累死自己,而是停下来告诉后人:“ 往这个方向走是没错的。”
除非你幸运如令狐冲,否则别指望剩下的山体可以一捅就破。大部分情况下,你朝着这个方向走下去,恐怕还得另外开山数百丈,甚至可能会累死在半途中。
这是因为,许多能解决的问题,原先的研究者早已解决完。谁会把容易解决的问题拱手让人呢?积攒这些问题和存钱不同,不会给他们带来任何复利的好处。更何况,审稿人哪里会对容易解决的问题“ 高抬贵手”?肯定会“ 穷追猛打”,让作者反复思索, 直到作者真正解决了它们才肯善罢甘休。
被审稿人和编辑放过的“ 未解决”问题,要么是当前环境下非常难以攻克的问题,实在不便强人所难;要么是工作量很大的问题,完全可以自成一体,再写一篇文章。当你有幸在期刊上读到
正式发表的论文的时候,作者兴许早把这展望中描述的“ 后一篇文章”写完了。
这就如同王戎说李子是苦的一般,科研领域里低垂的果实(low-hanging fruit)并不容易碰上。如果你运用理性思维琢磨,就会发现其中的奥秘。正因这种潜规则,谷歌公司首席经济学家, 加利福尼亚大学伯克利分校(UC Berkeley)的教授哈尔·瓦里安( Hal Varian)提出,千万不要在构建完成一个新的模型前, 去寻找和阅读相关文献。
瓦里安这样说主要出于两个考虑。首先,好的文献绝不会给你留下容易解决的好问题;其次,你的思路可能会跟着这些走在“ 主流”道路上的“ 大牛”走,彻底钻到一个死胡同里,而对于本来可以轻易发现的新问题,你可能会自动忽略它们。
因此,瓦里安建议人们先把模型做出来,然后不断迭代、修正模型到可以接受的程度。
有了这样一个模型再去读文献,你可能会发现数十年前这个问题就有人研究过了。不过不要沮丧,这不是大问题。
这恰恰证明你的独立科研能力已经达到( 至少在当时)可以在优秀期刊发表论文的水平。对于科研初学者来说,这是一种非常积极的反馈。下面用你的经验去查找新的问题和模型。如果你的模型和原作者有细微的差别,那就更好了。从这些差别中,你可能会有极其有价值的发现。
佐治亚理工学院的吴东军教授(D. J. Wu)提的办法更有意思。他的办法属于典型的“看热闹不嫌事儿大” ——让经典文献相互“打架”!
文献不是生物,怎么“ 打架”?其实许多文献确实在“ 打架”。例如一篇文献 A 提出某观点,可能一段时间后另一篇文献 B 就用充足的证据把该观点驳斥得体无完肤。
人们就倾向于将新的文献 B 的观点奉为圭臬。但是文献 A 当初是怎么从审稿人的手底下“ 滑过去”的呢?真的是审稿人缺乏责任心导致的“ 事故”吗?事情恐怕没有这么简单——文献 A 很可能有合理和可取之处。于是吴教授从这样的文献间的冲突出发, 用更为全面的模型考虑在哪种情况下,文献A 的论点依然会成立,从而对文献A 给予( 有条件的)支持。
由于文献 A 和文献 B 的冲突,吴教授所做研究的意义和价值已经不言自明,从一开始选题就具备了充分的价值和必要性。因此这是一种非常聪明而有效的文献利用方法。
发现、理解,而且还恰好能重新诠释经典文献之间的冲突,听起来很美妙。然而,并非所有人都有这样的运气和毅力。所以,为了发现问题,你还需要使用其他的手段—— 数据导向。
03数据导向
如果你手里有好的独特数据,可以尝试从中获得选题。
在我参加的这次暑期学校中,有半天的时间是编辑与作者的交流时间。由于 MISQ 的主编阿伦·拉伊(Arun Rai)和 ISR 的主编阿洛克·古普塔(Alok Gupta)都在,所以参与交流的人被分成了 2 组,每组分别有 3~4 位作者展示自己的论文,寻求主编的意见。
有位作者展示的是利用 Foursquare 数据对用户行为进行预测研究。不少听众的兴趣点在于独特的大规模数据获取,散会后,他们一直追问论文作者是如何收集这些数据的。
这位论文作者一下子有些紧张,似乎害怕这份宝贵的数据很快就被别人轻易夺走。这种担心不无道理。大数据时代,数据是不缺的,但获得真正有价值的数据,如同沙里淘金,并不是一件容易的事情。别说数据本身,就连淬炼高价值数据的方法,也是经过了无数次摸索和失败才最终获得的。
专属的数据不是所有人都能得到的。有位老师讲解了如何和国家税务总局合作,利用发票数据来监控产能过剩的问题。方法非常简单,筛选出合适的指标特征就可以——他最后选择的是钢铁和煤炭行业的数据。通过这种方式,他不仅给全国企业画像,还通过某些指标特征,发现了其他“ 有趣的结果”。
你可能觉得很不服气——这样的问题自己也有能力处理啊!问题是,从哪里获取如此大规模的专属数据呢?这个问题咱们后面会谈及。
如果专属数据难以获取,你可以退而求其次,找开放数据。开放数据中,也有非常适用于研究的,而且规模庞大。
但是请注意,如果你利用开放数据做研究,速度是非常重要的。这是个竞争激烈的领域,唯快不破。你能看到的数据,别人也能看到。如果下手慢了,你可能就摘不到“低垂的果实”。
现在学术界比较注重原始数据的开放性。这主要是为了保证研究的可重复性能被有效检验。有不少期刊在作者投稿的时候就要求上传对应的数据,而且数据集目前也可以单独出版,这样别人使用时可直接引用。作者辛苦采集的数据被一次次的引用行为肯定。
再如 Kaggle 等数据科学竞赛网站上总是有非常规整的数据集可供你使用。如果你用得好,挖掘出数据的独特价值,甚至还能获得价值不菲的奖金,何乐不为?
看到这里,你或许感到很疑惑:刚才还说有价值的数据非常稀缺,可为什么这些企业和组织机构要在 Kaggle 这样的网站上公开发布数据呢?而且不但白给别人数据,还发奖金?
实际上,企业在经营活动中,总会面临之前没有遇到的实际问题。他们十分需要利用数据驱动的方式来解决这些问题。传统的解决问题的方式是,从企业咨询机构聘用顾问或咨询师,但是顾问一般是按照工作时长而非产出效果来收费的。企业与其高价买来无法衡量品质的服务,还不如干脆公开发布数据,给出确定的奖金数额,让大家来竞赛,即以奖金为杠杆,撬动世界上优秀的大脑一起竞争解决问题。所以,这种做法是真正的理性决策。
通过企业主动公开数据的例子,你应该明白了一个道理—— 数据虽然可以给你带来独特的视角和观察资料,但是其中蕴含的更为重要和有价值的问题,其实源自实践。
04实践导向
前面提到过,哈尔·瓦里安教授认为不应该从文献中找问题,而应该把时间花在看似不相干的报纸和杂志的阅读上。他推荐的报纸杂志包括《纽约时报》《华尔街日报》《经济学人》等。
瓦里安教授认为,对经济学研究者来说,读这些东西远远比看文献重要。因为这些报刊会提到经济学家感兴趣的实际问题,虽然分析过程有时漏洞百出。其他专业人士看了,可能一笑置之,但是瓦里安教授显然不会轻易放过这么好的选题机会。
其实,在学术圈写论文,就像在讨论区和别人争论。如果你只会翻来覆去说一些大家都知道的内容,没有人会感兴趣;而如果你能不断从外界获得新的灵感、信息和见识,特别是利用好别人提出却没有解决的好问题,那你讲的内容就可以更轻易地抓住别人的注意力。
除了阅读这些报纸杂志,学者们还提出了两个很好的发现问题的途径。
一个是业界咨询工作。艾宁德亚·高斯和保尔·帕夫罗(Paul Pavlou)等学者都是“ 两条腿走路”—— 一边在学术界攀登,一边在业界做咨询工作。咨询的目标是解决问题。作为一名咨询顾问,不用你主动去寻找,问题也会自己找上门来。
在大数据时代,做咨询必然要接触许多企业数据。例如,高斯获得了好几家知名企业做数字广告的效果数据。这些数据不仅体量庞大, 而且结构完整、真实性高,是让你的研究获得竞争优势的重要源泉。
与企业合作是一种双赢之道。这里我给你提个醒——在这个人与人之间联系紧密的社会上生活,一定要学会互惠合作,不要总是尝试做“ 伸手党”。
许多导师和研究生都觉得,获取数据是一件非常困难的事情—— 那些大公司根本不愿意分享数据给你。没错,但是你没有看到“ 硬币的另一面”。他们其实特别乐意分享数据,只要你的分析能力比他们强,能给他们更有价值的洞见。不难想见,许多大型企业都对高斯和帕夫罗这样的顶级学者敞开大门、张开双臂,表示热烈欢迎。
同样的数据,在不擅于分析的人手中一文不值,到了会分析的人那里就可以被挖掘出不菲的价值。企业解决了实际问题,获得了经济回报;你完成了研究,发表了高水平论文。这便是双赢之道。
可是你作为一个科研初学者,还远远没有那样的积累。大企业可能还是会把你拒之门外,怎么办呢?
答案是从小处做起,如帮中小企业解决具体的问题。
我在密歇根州大学访学的时候,讲授管理信息系统课的基兹耶尔教授,让学生到主街(main street)上挨个敲商户的门,帮助他们发现目前存在哪些不足,并且想方设法加以改进。学生上课的时候分享这些案例,可以充分体会“ 实践出真知”的意义。
获取实践问题的另一个途径是读案例。
前面提到的佐治亚理工学院吴东军教授,就让自己的学生去读哈佛案例库,从案例中寻找问题。一个企业案例能进入哈佛的案例库是非常不容易的。经过层层筛选的企业案例往往代表业界实践中非常典型的问题。哈佛商学院教授派珀认为“ 商业世界只有问题,没有理论”。通过读案例,学生可以找到“想问题的感觉”。
你看,一个经典而庞大的问题库与实践结合紧密,理论却缺位,
这难道不正是研究者们的好机会吗?
然而,据吴教授说,他带的博士生里愿意听他话的寥寥无几。有个叫黄涛的学生听了他的话,真的跑去读案例,于是成了他最为得意的学生,发展得非常好。看来,听导师的话,不吃亏。
有的同学可能会觉得,自己没有声誉和名气,是不是就不能按照“ 实践导向”来选题呢?
当然不是。每个人都有自己独特的生活环境,你可以找到自己独特的生态位。尽量扬长避短,找自己熟悉的地方切入。当年我们学院有个学生是少数民族,他在做毕业设计时选择做本民族语言文献管理系统,效果很惊艳,获得了“优秀毕业设计”的荣誉。
05协同导向
暑期学校的最后一天,主办方把保尔·帕夫罗请了过来。
别人做学术报告,多是用自己发表的几篇论文来讲解自己具体的研究,或者把自己的心得和其他学者的观点熔于一炉,娓娓道来。保尔不是,他介绍了移动互联网领域的几大重点研究方向, 介绍每一个研究方向时,都对自己目前发表在一些顶级期刊上的文献进行点评。他很谦卑地说,批评别人的作品是一件比较困难的事,所以就批评自己的作品吧。
然后,在每一个类别下面,他都批评了几篇自己的作品。这样的PPT 有十几页。他确实没有办法细讲,因为他发表在顶级期刊上的研究成果过多,每篇都细讲的话,肯定超时。
你可能对这些国外期刊不是很熟悉,为了让你能有切身的感受, 咱们打个比方。好比一位国内图书情报学者介绍自己近几年的研究,列出了三四十篇文献,全都发表在《中国图书馆学报》《情报学报》《中国社会科学》《管理世界》上…… 明白有多厉害了吧?
中场休息的时候,坐在第一排的我一个箭步蹿上台,问了一个颇为幼稚的问题:“ 别的学者总说质量和数量是一对矛盾,要做权衡取舍。我看你在保证研究质量的同时却有这么多的研究数量。你一定有什么秘诀吧?”
保尔笑了笑说,其实没有什么秘诀,只是遵循了以下 3 条法则。
·努力工作,不能过于努力而耽误了生活,但是也得足够努力。
·研究的问题要通俗易懂和有趣,这样才做得下去。
·要找靠谱的合作者。其实最近这几年他并不想发表这么多文章,但是合作者( 包括同事、博士生和刚刚毕业的博士)不干, 他们一个个干劲儿十足,拽着他往前冲。
我一下子明白了合作者的重要性。他们所能提供的不仅是独特的知识、方法和观察视角,还有动力。
然而,为什么像保尔这种质量与数量齐飞的情况并不多见呢?
从他的讲述中,我悟出了关键点——扎实的基本功。他做了很长时间的博士,在长期的博士基本功训练里,他对任何研究方法都认真掌握,然后反复磨炼。他能处理一个大领域中不同的科研问题,所以与他人合作的结果非常好,沟通带宽也足够高。
对于自己的这种能力,保尔用了“ 幸运”一词,但是我相信用“ 努力”一词会更确切。当他足够优秀,功成名就时,自然就会吸引更多优秀的人跟他合作,于是他的声望就达成了一种正向循环。你要想得到这种正向循环,还需要足够长时间的积累。有同学问我,该怎么选择合作者?
我的答复是:多出去开会,跟“ 高人”建立联系。“ 高人”未必是功成名就者,很多年轻人也非常有潜力。
从保尔这里我领悟了许多。然而,因为时间关系,他虽然把一条清晰的脉络展现在了听众的面前,却没有着重去讲他选题的另一个重要成功法则。幸好,吴东军教授给我们补上了这一课。
06系统导向
在与吴东军教授的问答过程中,我说了一句实话:“ 您讲之前我都困了,您讲完我都不困了!”
大热天的,听了一上午的课后,刚吃过午饭,下午1 点就上课, 一直到下午 4 点,能不困吗?但是吴教授有办法让大家变得特别有精神,因为他非常幽默。
吴教授的讲座有以下两条主线。
批评自己的研究生。他说因为跟自己带的研究生们讲话没人听,所以跑到世界各地给别人讲,别人听了获得了成功,就可以拿过来当榜样教育自己的学生。
夸自己的儿子。吴教授的儿子非常优秀,被藤校提前录取。吴教授介绍完儿子的成长经历后,课后问答时间就有许多老师跑上去问育儿经,搞得吴教授只好推说孩子平时都是太太管教。
但是,他讲自己儿子的故事,却给他自己和观众都带来了启发。
近 10 年前,他儿子还很小的时候,爷俩喜欢下国际象棋。吴教授下棋时似乎没有什么风度,最大的乐趣就是一个个吃儿子手里的车马小卒,看着儿子干着急,他乐不可支。
但是,那一次,儿子的举动让他惊呆了。
他依然欢乐地吃儿子手里的棋子,儿子却突然抬头,自信地告诉他:“ 爸爸你输了。”他觉得这是儿子的臆想,自己这边兵力充足, 子数占优啊。但是这盘棋真的是儿子赢了。吴教授不解,问儿子是怎样做出的判断。
他儿子说,因为自己的布局已经完成,虽然损失了一些棋子,但是锁定了最终的胜负。
吴教授当时立即悟出后面几年的科研路径——要布局。吴教授追求的布局,早几年想明白这个道理的保尔已经做到。
布局的精髓是,在一个领域的每一个方向上都占领关键点,这要求你对该领域有全面、深刻的了解,并且能够预测该领域之后一段时间内可能的发展;在你占领了这些关键点后,别的学者取得的任何研究突破,都必须以你的这些关键点为基石,那么被引用率想不高都难。
清华大学的宁向东教授一直强调“格局”二字。在他看来,“ 格” 是动词,“ 局”是名词,作为宾语。一个领导者只有具备“ 格局”的能力和智慧,才能充分地调动各种资源为自己所用。保尔也强调了这个问题,他认为一个学者应该具有企业家精神(entrepreneurship),也就是说,好的学者也该是好的领导型管理人才。
关于关键点的占领,有趣的例子是科斯的论文。当年科斯提出著名的“ 科斯定理”的那篇论文,因为打破传统认知,缺乏学界共识,导致很多经济学研究者不以为然,纷纷提出批判性意见。然而几十年间,科斯的文章被引用的次数过于惊人,他也拿到了诺贝尔经济学奖。
07小结
本文总共列举了 6 种科研选题的导向。其中“ 方法导向”你应该避免使用,而其他的 5 种导向都可以借鉴。
复习一下,其他的 5 种导向分别为如下内容。
文献导向,从经典文献中发现问题。
数据导向,如果你手里有好的独特数据,可以尝试从中获 得选题。
实践导向,从媒体、业界咨询和案例中发现选题。
协同导向,明白优秀合作者的重要性。
系统导向,提前布局,占领行业关键点。
使用时要注意它们独特的应用场景,以及要和你的现实条件相结合。希望这些内容,对你的论文选题有所帮助。
除了本节中列出的 6 种导向,你还知道哪些做科研选题的方法?这些方法你实际使用过吗?你有什么值得借鉴的经验或应当汲取的教训吗?
上一篇:论文写作的小技巧
下一篇:文献综述的七项任务与良好指南