上海面积变化统计图 搜集上海的人口土地和经济数据
“ 用足够多的数据逼近真相。”
摘要
数据是现代社会分析决策的重要依据。本文通过介绍互联网上公开的行业经济数据,为读者提供获取数据的途径,打开分析上海房地产市场的思路。本文将努力避免主观论述,关注数据本身的真实性与准确性,并尝试启发读者自己去发现数据中隐藏的客观规律。
写作动机上海是一座充满魅力与机遇的城市。或许正因如此,上海居民承担着全球领先的房价收入比[2]。购房成为了代价高昂且容错率极低的决策行为。人的生活离不开衣食住行,了解上海的房屋市场对于想要在这座城市长期生活的居民来说,往往是必要而困难的。政府主导着政策规划与土地供应,二手房卖家主导着挂牌价和二手房源,企业和商人影响着新建房屋的区位和配套因素。很多人喜欢通过阅读官方公布的城市规划,以及包含各种观点的公众号文章来得到对于房屋价值的研判,而在面对众多观点的时候,人很容易感到困惑。如果能借助一些数字指标来校准,或许能帮人做出更加理性的决策。
房地产相关数据源调研什么是与房地产相关的数据?任泽平将“金融、经济、人口”视为房产市场三要素[3]。从经济上看,中国有着稳定向好的经济环境;从供给侧来看,城市土地拍卖决定了短期未来一手房的供应上限,中介挂牌数据反映了城市二手房的供应情况变化;从需求侧来看,城市人口数量和结构的调整深刻影响着购房需求。除此之外,政府的政策和规划对于市场也具备很强的导向作用,是市场分析过程中不可忽略的参考因素。
如何获取上面提到的这些数据和信息呢?借助互联网,可以以很低的成本从政府和非官方部门采集到相当丰富的数据。统计局公布的年度统计数据(《上海统计年鉴》)较为规范地整理了历年的房地产行业数据以及人口数据,并将其公开在统计局网站[1];链家等中介平台也向所有用户免费提供了二手房挂牌交易信息,可以较为方便快捷地访问。需要强调的是,目前也有一些机构收集整理了房地产相关数据,例如易居,贝壳等服务提供商,但这些数据需要支付费用才能在受限的场景下使用。
图1: 历年发布的《上海统计年鉴》截图
官方统计数据介绍
每年的上海统计年鉴都会分20多个模块分别介绍社会经济运作的重要数据,涉及人口、行业投资、物价、教育等社会生活的方方面面。房地产业门类相关数据作为其中一个模块,统计了房地产开发投资到位资金情况、房屋建设情况,销售和出租情况,征收情况,房屋使用权土地使用权出让情况,存量房交易情况等。数据在统计局官方网站上每年发布一次,以表格的形式对上年及历年相关数据做汇总展示。
图2:《上海统计年鉴》数据门类截图
数据特点
每次新的年鉴发布,可能会涉及历史数据的修正,例如2019年的统计年鉴中记录的历史数据,与2018年发布的数据可能存在不同。数据以不固定格式的表格形式发布,需要一些人工操作和整理,才能将历年数据对齐格式进行整体分析。
中介交易平台数据
目前中国存在若干互联网房产交易平台。综合舆论评价,链家的交易数据相对准确,在一线城市所占据的市场份额较高,相比其他平台能更好地反应市场交易动态。但链家本身不会直接发布统计数据,所以一般情况下,需要借助程序脚本抓取并处理链家网站相关数据,才能据其进行分析。
数据特点
链家网站上对于房源的描述信息既包含面积、房龄、布局、交通、交易情况等房屋情况描述信息,也包含实景照片、评论等非结构化信息,如图3所示。除此之外,链家还记录并公开了小区的描述信息,包括建筑年代,楼栋数量和房屋总数,挂牌均价等数据,如图4所示。
图3:上海链家房屋情况页面截图
图4:上海链家小区情况页面截图
以小区相关数据和房屋相关数据为例,目前能从直接链家网站上抓取到的数据格式如下表所示:
表1. 链家网站公开小区数据格式示意
类型 |
备注 |
示例 |
bigint |
链家小区ID |
508420324553041 |
string |
小区名称 |
嘉隆国际广场 |
string |
地址 |
(嘉定徐行)胜辛北路1888弄, 汇源路288弄 |
double |
坐标:纬度 |
31.421133 |
double |
坐标:经度 |
121.209452 |
string |
小区所属板块 |
上海房产网,上海小区,嘉定小区,徐行小区,嘉隆国际广场 |
int |
建成年份 |
2017 |
string |
建筑类型 |
塔楼/板楼/塔板结合 |
string |
物业公司 |
南通市中房物业管理有限责任公司 |
string |
物业费 |
暂无信息 |
string |
房地产开发商 |
中房集团 |
int |
小区建筑数量(栋) |
181栋 |
int |
住宅数量(户) |
1985 |
string |
采集时间(UTC *) |
2020-12-02 23:41:33 |
表2. 链家网站公开住宅数据格式示意
类型 |
备注 |
举例 |
bigint |
房屋 ID |
107102945521 |
String |
房屋名称 |
枫桦景苑二期 3室2厅 132.99平米 |
Double |
挂牌售价(万元) |
370 |
Double |
成交价(万元) |
362 |
String |
小区名称 |
枫桦景苑二期 |
Bigint |
小区ID |
5020045663332066 |
string |
建筑类型 |
板楼 |
string |
房屋朝向 |
南 |
string |
房屋楼层 |
低楼层 ( 共14层) |
double |
套内面积(平方米) |
95.95㎡ |
string |
户型结构 |
2室2厅1厨1卫 |
string |
装修情况 |
简装 |
string |
建筑结构 |
钢混结构 |
string |
梯户比例 |
一梯两户 |
boolean |
配备电梯 |
True/False |
string |
产权年限 |
有 |
date |
挂牌时间 |
2015-04-01 |
string |
交易权属 |
商品房 |
date |
上次交易 |
2007-08-23 |
string |
房屋用途 |
普通住宅 |
string |
房屋年限 |
暂无数据 |
string |
产权所属 |
无 |
string |
抵押信息 |
无抵押 |
string |
房本备件 |
已上传房本照片 |
string |
状态 |
成交 |
string |
成交时间 |
2020-03-20 |
string |
数据采集时间 |
2020-12-02 23:41:33 |
int |
关注人数 |
9 |
良好的数据格式和数据质量是数据分析的前置依赖。从实践的角度出发,政府发布的《统计年鉴》数据格式变化多端,较难实现自动化梳理和统计,大概率需要人工介入进行增删改查。而链家的数据格式较为统一,可以用爬虫技术批量抓取并格式化存储在本地,但在后期必然涉及到数据的清理、格式化以及持续更新,这部分工作对于从事数据开发工作的本人来说自然是驾轻就熟了。本文在此提供一份可以参考的源代码,稍作修改即可使用:
链家网站爬虫:https://github.com/lanbing510/LianJiaSpider
粗略统计,在遍历上海链家域名下所有数据后,能获取到20万条以上的房屋小区数据。在完成了数据的清洗归类处理之后,数据分析将会具备非常大自由度,例如,结合《统计年鉴》数据可以得到人口、土地、房屋价格等数据的历年变动曲线,分析不同因素之间的相关性;结合链家的交易数据可以对房屋的真实价格做评估校准,分析不同区域的房屋类型分布和市场价格。
上述数据的收集整理工作已经持续了一段日子,后续将会陆续开放给各位读者,欢迎关注本公众号(data-me),及时获取相关数据。如果你有其他数据源推荐,也欢迎评论分享~
参考资料
[1]上海统计局 数据发布,http://tjj.sh.gov.cn/sjfb/index.html
[2] Cost of living, numbeo, https://www.numbeo.com/cost-of-living/
[3]《房地产周期》,任泽平,人民出版社,2017年
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com