时间:2023-07-28 21:26 所属分类:写作指导 点击次数:
01领确定研究问题
(一)阅读文献
首先你得先有个大方向,可以是你自己感兴趣的,也可以是在导师的引导下,但最好是两者结合,不然看那么多干货,我选择原地爆炸。一般是确定个核心词,然后在知网上下载相关文献。刚开始看文献,看的特别慢,而且,你几乎看不懂他说的是什么意思,没关系,大家都这样。不过前几篇,你最好按着顺序看下来,从头看到尾,理解他的作用机制,这个变量是如何影响另一个变量的,模型一定要重点看,这是你要学习借鉴的地方,包括变量的量化以及数据的来源,不管你想的有多美,找不到数据,还是没用。看第一遍的时候,可以在文献中做适当的标记,还可以写写感想。但是,看完整篇之后一定要把认为最关键的另外摘录下来!你可以快速浏览全篇,重点看标记的地方,摘录下来!录下来!下来!请记住我爱的忠告,不然,你会忘得(蜜汁微笑).....我摘录的内容(仅供参考):题目与作者信息(参考文献格式)、作用机制、假设、模型、变量量化、数据来源。建议最好摘录20篇以上,然后对看过的文献进行适当的归类与总结,你会慢慢发现这些文献的相通处。记得读文献时适当回顾之前读过的文献,你可能会在看某篇时产生灵感,记得一定要写下来,不然你会忘得......
(二)确定基本模型
关键是要确定主要解释变量以及被解释变量。做好上述工作之后,你需要重读自己摘录的论文信息,然后可以适当组合创新,选择核心变量,然后再进一步搜索相关的文献,不断进行补充与优化。在我看来,问题的确定与基本模型的确定几乎是一致的。
不同文献对同一变量可能采取不同的量化方式。确定好主要变量之后,你可以在这些文献中,选择最适合自己论文的量化方法,还可以为之后的稳健性检验做准备。
02下载数据
接下来就是找数据了你得知道你每个变量对应的数据,然后去数据库里找。我论文研究的问题是与企业相关的,所以可以利用上市公司的相关信息。手头有的资源是Wind金融数据库(万德)和CSMAR数据库(国泰安),如下对这两个数据库就企业类数据谈谈看法。因为之后数据处理用的是stata软件,对导入数据有一定的要求,所以还要考虑到之后数据整理的方便性。万德数据库只能在特定电脑使用,从万德上下载数据,一个数据表可以同时下载一个公司的各种信息,但是只可以下载一个时间截点的信息,就是截面数据的样式,你的面板数据跨越几个时间点你就需要下载几个数据表,然后在对下载的数据表进行合并(不停的粘贴复制)。国泰安是移动网页型,只要有网址,账号就可以随时随地使用,从上面可以直接下载面板数据样式,但是企业的不同信息存在可能存在于不同的数据表,也就是说,下载完数据后,你也需要合并匹配,并且难度更大,因为不同数据表的样本数可能不是完全相同的。如果是截面数据,或则时间期数不多的面板数据,建议使用万德。如果面板数据的跨时间期数较多,建议运用国泰安。前提是你有的选择。
我的是季度数据,而且跨了几个年份,所以选择国泰安(我能说我这个颜狗在看到国泰安的界面时瞬间就被圈粉了嘛)!但是后期数据整理时,那个不同数据表之间的匹配还是折磨死我了,所以我没思考出,到底是不是万德更胜一筹,但是,对他的界面实在无爱,原谅我的不理性。
友情提示:下载数据时,不要担心自己下载的数据信息会不会太多,时间跨度会不会太大。我因为缺少部分信息,在整理报表时不知道返工了多少回,简直泪目。整理到一半,发现不对劲,又重新回头下载,反反复复.......特别是关于数据统计方面的信息一定要下载清楚,比如股票代码,报表截止日期,报表类型等。
Stata导入数据的格式:
Excel处理时,第一行为变量名,不同列指代样本的不同信息。第一列为股票代码,第二列为年份,第三列为季度,然后依次可以往后输入其他信息比如企业净利润率等。不同企业不同时间点的信息,在每一行录入。当然,行与行之间顺序乱的stata也是可以识别的。建议变量名使用英文,中文不识别。
03数据处理
(一)选择数据报表类型
从国泰安下载下来的数据有可能分属于不同的报表类型,我第一次没有下载报表类型这一信息,然后有些变量在同一时间点有两个不同的数据,简直乱了套,后来才发现是报表类型那出了问题。报表类型分为A、B两种。A代表母公司报表,B代表总公司报表,下载的数据这二者是混在一起的,所以我们一般要对此先进行分类,一般采取母公司报表数据进行问题研究。
(二)数据删除
1.删除金融类企业的数据:金融类杠杆率大,各指标情况同其他企业差距很大,所以研究企业类问题时一般默认删除。
2.删除空白数据:如果该企业此月份的某一数据缺失,那整行数据都需要进行删除
3.删除不合理数据:你需要对各指标的合理区间进行判断,也许该指标的数据不可能出现负值,也许不可能大于一,你需要删除合理区间意外的数据
4.删除乱码:有些数据是通过数据间的运算得到,所以有可能得到乱码,也需要筛选出来一并删除
删除数据时可以巧用Excel中的筛选功能。这是就要佩服2007版本的office,可以之间筛选出某一数据进行局部删除,而WPS就不能。
(三)数据整合
这时候需要把分散在不同Excel表格中的数据整合到一个表中,空白数据的删除一定要在此项工作之前,因为,当你运用vlookup等函数将表格匹配到一起时,空白处还自动填充成0。在运用Excel进行数据处理时。一定记得问度娘,可以是很小白的问题,你会发现原来Excel还可以这样操作!不要傻傻地自己手工操作。(我一开始就是这样,心痛到不能呼吸,度娘比你想象的强大,Excel的骚操作也不是你我可以膜拜的)
(四)数据变换
Stata只会识别数值型数据,只认英文和阿拉伯数字,所以不合格的当你导入stata时通通标红。我遇见的几种情况:
股票代码000001,000002——NO;日期2018/01/01/ 、20180101——NO;78%——NO;文本类数据——更不可以
至于具体某种情况如何变换成标准样式,请问度娘,千万别直接手动变换啊!我用过vlookup,中间还经常匹配不起来,特别是运用文字信息时,你需要比对进行匹配的ID是否一样,比如广东和广东省就不可以;对日期的处理运用过Excel中“分列”,left等。
04运用stata进行数据处理
同之前说的,我研究问题用的是各企业的面板数据,所以下列只是我在用stata时处理面板数据的常用命令的介绍。再说一次,这也不是stata教程,stata的基础操作还需要你们自己了解,包括数据如何导入,软件的安装等。
(一)命令
Clear.................................................................................................................清除数据
generate quarterly=yq(year, quarter)................................................................定义时间(我使用的是季度数据所以定义为quarterly,如果是月度则变换为monthly)
xtset x1 quarterly..........................................................将数据定义为“面板”形式,x1是类似于截面数据的编号,好比每个人都有不同的ID,不同上市公司也对应不同的股票代码
gen x1_=l.x1.................................................................................................滞后一期变量温馨提示:l.后面直接跟上变量名,不可以存在空格
sum x1 x2 x3 x4 ...............................................................................................描述性统计包括样本数、最值、均值和方差等样本信息,此结果的导出需要直接进行复制粘贴(后续会详细介绍)
pwcorr_a x1 x2 x3 x4, star1(0.01) star5(0.05) star10(0.1)................................相关性分析star(.01)括号内表示显著性水平,结果导出的处理方式同描述性统计
xtreg y x1 x2 x3 x4, fe............................................................................固定效应回归命令y是被解释变量,x是解释变量fe表示固定效应,使用固定效应时,回归结果中那些不随时间变化的变量不会出现系数,只会出现显著性水平,比如一个人的性别(微笑),企业性质,所在地等
xtreg y x1 x2 x3 x4, re.............................................................................随机效应回归命令使用随机效应时,回归结果中每个变量都会有系数。恕我才疏学浅,现在还不是很知道如何解释不同效应的意思
esttab using y8.rtf ,star(* 0.1 ** 0.05 *** 0.01)..........................................导出回归结果y8是你要给导出文件的命名,此命令只可以导出回归结果,但导出不了描述性统计以及相关性分析的结果
如果发现命令输入一直没有结果导出,你可以检查一下命令的各个空格是否正确以及大小写,stata好像只认英文小写。
(二)麻烦
如果你发现自己第一次作出来的数据不显著(我第一次跑数据的P值0.9,想死的心都有,但还是要保持微笑),不要忧伤不要心急!因为明天的你会更惨......收回毒鸡汤,我给大家推荐几种镇定剂(至于这些方法是否科学,我不好评价,只知道这些方法挺好用的)。
1.缩尾处理
ssc install winsor2...................................................................................安装缩尾处理(当初百度时,我还傻傻地以为是真要下载什么安装包,还研究了好一会,然后我绝望的发现,当你输入这条命令的时候就叫安装......)
winsor2 x1 x2 x3 x4, replace cut(1 99)
winsor2 x1 x2 x3 x4,replace cut(1 99) trim
缩尾处理的输入后,需要再次输入回归命令xtreg y x1 x2 x3 x4, fe
2.分组处理
可以根据某种标准对数据进行分组,比如按企业性质,可以分为国有企业,民营,外资等。
3.删减数据
这不是指你可以随意删减样本数据,而是对你要研究的区间进行选择。如果你的样本容量足够大,你可以调整所要研究的数据的年份,比如,将2012-2018变为2015-2018;也可以选择分组中的某一特定类别来研究,但随之你的理论都得进行相应的解释;你也可以改变时间频率,把季度改成月度或则年度。
具体命令的意思以及为什么要这样处理,请大家自行了断(划掉划掉,自行了解),我只是为跑数据时不知所措的我们稍微引一下路,少走一些弯路,不然忙活半天到头来又得重新开始。还是那句话,建议大家有什么问题可以多问问度娘或查阅相关书籍,求助大神也可以,不要闷头直干或放弃。
至于为什么不再写的具体些,因为.................................................................懒
05论文排版
我怕是中了排版的毒,现在干什么都要额外花些时间去排版,宋体、小四、行间距固定值22磅,首行缩进两格(微笑,我也控制不住我自己啊)!每个学校,期刊对论文格式要求都不同,所以也没有一个统一的标准。但为各位提个醒,先调整页面布局的页边距,不然你好不容易调好的表格又要跨页了!建议大家先详细阅读论文的排版要求,别看一个调整一个,也不建议用格式刷,不见得有多快,而且你看过之后孰能生巧,哪里有问题,自己也能看出来。修改格式时建议大家调整出视图中的格式标记,这样空格,回车等符号都可以在文档中显示出来。
(一)参考文献
样本:
[1] 李后健, 张宗盛. 地方官员任期、腐败与企业研发投入[J]. 科学研究, 2014, 32(05):744-757.
说明:
1.除文字部分其他都用英文格式;
2.各标点符号后要有空格;
3.除了[1],其他[2][3]都用回车生成
4.[1]-[9]设置为首行缩进1.5磅;[10]之后设置为2,目的是为了对齐
5.如果是使用知网导出,记得删去最后的导出时间等多余信息
(二)表格
1.描述性统计
导出:选中stata里的表格——右键——点击“copy table”——粘贴到Word文档中——选中,利用“文本转化成表格”
框线要求:选中表格,调整边框线——上下框线1.5磅,中间横框线0.5磅,中间竖框线0.5磅,左右外侧无边框——选中表格右键——自动调整——根据窗口调整表格
描述性统计如果是0.12的小数,小数点前边会没有0,只是“.12”所以需要手动添加。
2.相关性检验
3. 回归分析
一条回归命令导出一个回归结果,也就是每个导出的回归表格只有两列,所以需要将各回归结果进行合并。我们可以选择最长的一列作为基准,然后将其他的依次加入此表格中(在此操作中,本人觉得WPS的Word很好用)。注意变量名与数据的对应,然后再删除空白行,边框的要求同上。(如果你没实操过,可能觉得我在瞎说八道,算是吧.........)
导出每个表格时,一定记得手动copy “R-squared、Adj R-squared”的信息,在手动添加到表格后边,利用固定效应命令的,可以把那些表量名改为中文,处理如表3。再把表格美化一下,比如将变量名处的表格合并居中,之后再上注释就OK了。
上一篇:论文如何论证更有深度
下一篇:文献整理的方法与软件