當前位置: 妍妍網 > 碼農

超酷炫,Python實作交通數據視覺化!

2024-04-21碼農

轉自:快學Python

今天分享一次Python交通數據分析與視覺化的實戰!其中主要是使用TransBigData庫快速高效地處理、分析、挖掘出租車GPS數據。

本文作者依托【交通時空大數據分析、挖掘與視覺化】一書中所介紹的相關技術開發了Python開源庫TransBigData,該庫面向交通時空大數據分析不同階段的處理需求,以簡潔、高效、靈活、易用的程式碼實作復雜的數據處理任務。

1、TransBigData簡介

TransBigData是一個為交通時空大數據處理、分析和視覺化而開發的Python包。TransBigData為處理常見的交通時空大數據(如出租車GPS數據、共享單車數據和公交車GPS數據等)提供了快速而簡潔的方法。TransBigData為交通時空大數據分析的各個階段提供了多種處理方法,程式碼簡潔、高效、靈活、易用,可以用簡潔的程式碼實作復雜的數據任務。

目前,TransBigData主要提供以下方法:

  • 數據預處理:對數據集提供快速計算數據量、時間段、采樣間隔等基本資訊的方法,也針對多種數據雜訊提供了相應的清洗方法。

  • 數據柵格化:提供在研究區域內生成、匹配多種型別的地理柵格(矩形、三角形、六邊形及geohash柵格)的方法體系,能夠以向量化的方式快速演算法將空間點數據對映到地理柵格上。

  • 數據視覺化:基於視覺化包keplergl,用簡單的程式碼即可在Jupyter Notebook上互動式地視覺化展示數據。

  • 軌跡處理:從軌跡數據GPS點生成軌跡線型,軌跡點增密、稀疏化等。

  • 地圖底圖、座標轉換與計算:載入顯示地圖底圖與各類特殊座標系之間的座標轉換。

  • 特定處理方法:針對各類特定數據提供相應處理方法,如從出租車GPS數據中提取訂單起訖點,從手機信令數據中辨識居住地與工作地,從地鐵網路GIS數據構建網路拓撲結構並計算最短路徑等。

  • TransBigData可以透過pip或者conda安裝,在命令提示字元中執行下面程式碼即可安裝:

    pip install -U transbigdata 

    註意:這個庫安裝比較麻煩,如果使用遇到問題可以留言進【快學Python】交流群獲取解決方案。

    安裝完成後,在Python中執行如下程式碼即可匯入TransBigData包。

    import transbigdata as tbd

    2、數據預處理

    TransBigData 與數據處理中常用的Pandas和GeoPandas包能夠無縫銜接。首先我們引入Pandas包並讀取出租車GPS數據:

    import pandas as pd
    # 讀取數據
    data = pd.read_csv('TaxiData-Sample.csv',header = None
    data.columns = ['VehicleNum','time','lon','lat','OpenStatus','Speed'
    data.head()

    結果如圖2所示:

    ▲圖2 出租車GPS數據

    然後,引入GeoPandas包,讀取研究範圍的區域資訊並展示:

    import geopandas as gpd
    # 讀取研究範圍區域資訊
    sz = gpd.read_file(r'sz/sz.shp')
    sz.plot()

    結果如圖3所示:

    ▲圖3 研究範圍的區域資訊

    TransBigData包整合了交通時空數據的一些常用預處理方法。其中,tbd.clean_outofshape方法輸入數據和研究範圍區域資訊,能夠剔除研究範圍外的數據。而tbd.clean_taxi_status方法則可以剔除出租車GPS數據中載客狀態瞬間變化的記錄。在使用預處理方法時需要傳入數據表中重要資訊列所對應的列名,程式碼如下:

    # 數據預處理
    #剔除研究範圍外的數據,計算原理是在方法中先柵格化後柵格匹配研究範圍後實作對應。因此這裏需要同時定義柵格大小,越小則精度越高
    data = tbd.clean_outofshape(data, sz, col=['lon''lat'], accuracy=500)
    # 剔除出租車數據中載客狀態瞬間變化的數據
    data = tbd.clean_taxi_status(data, col=['VehicleNum''time''OpenStatus'])

    經過上面程式碼的處理,我們就已經將出租車GPS數據中研究範圍以外的數據和載客狀態瞬間變化的數據予以剔除。

    3、數據柵格化

    柵格形式(地理空間上相同大小的網格)是表達數據分布最基本的方法,GPS數據經過柵格化後,每個數據點都含有其所在的柵格資訊。采用柵格表達數據的分布時,其表示的分布情況與真實情況接近。

    TransBigData工具為我們提供了一套完整、快速、便捷的柵格處理體系。用TransBigData進行柵格劃分時,首先需要確定柵格化的參數(可以理解為定義了一個柵格座標系),參數可以幫助我們快速進行柵格化:

    # 定義研究範圍邊界
    bounds = [113.7522.4,114.6222.86]
    # 透過邊界獲取柵格化參數
    params = tbd.area_to_params(bounds,accuracy = 1000)
    params

    輸出:

    {'slon': 113.75,
    'slat': 22.4,
    'deltalon': 0.00974336289289822,
    'deltalat': 0.008993210412845813,
    'theta': 0,
    'method': 'rect',
    'gridsize': 1000}

    此時輸出的柵格化參數params的內容儲存了柵格座標系的原點座標(slon、slat)、單個柵格的經緯度長寬 (deltalon、deltalat)、柵格的旋轉角度(theta)、柵格的形狀(method參數,其值可以是方形rect、三角形tri和六邊形hexa)以及柵格的大小(gridsize參數,單位為米)。

    取得柵格化參數後,我們便可以用TransBigData中提供的方法對GPS數據進行柵格匹配、生成等操作。

    完整的柵格處理方法體系如圖4所示:

    ▲圖4 TransBigData所提供的柵格處理體系

    使用tbd.GPS_to_grid方法能夠為每一個出租車GPS點生成,該方法會生成編號列LONCOL與 LATCOL,由這兩列共同指定所在的柵格:

    # 將GPS數據對應至柵格,將生成的柵格編號列賦值到數據表上作為新的兩列
    data['LONCOL'],data['LATCOL']= tbd.GPS_to_grids(data['lon'],data['lat'],params)

    下一步,聚合集計每一柵格內的數據量,並為柵格生成地理幾何圖形,構建GeoDataFrame:

    # 聚合集計柵格內數據量
    grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()
    # 生成柵格的幾何圖形
    grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)
    # 轉換為GeoDataFrame
    grid_agg=gpd.GeoDataFrame(grid_agg)
    # 繪制柵格
    grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r')


    結果如圖5所示:

    ▲圖5 數據柵格化的結果

    對於一個正式的數據視覺化圖來說,我們還需要添加底圖、色條、指北針和比例尺。TransBigData也提供了相應的功能,程式碼如下:

    import matplotlib.pyplot as plt
    fig =plt.figure(1,(8,8),dpi=300)
    ax =plt.subplot(111)
    plt.sca(ax)
    # 添加行政區劃邊界作為底圖
    sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5)
    # 定義色條位置
    cax = plt.axes([0.040.330.020.3])
    plt.title('Data count')
    plt.sca(ax)
    # 繪制數據
    grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r',ax = ax,cax = cax,legend = True)
    # 添加指北針和比例尺
    tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)
    plt.axis('off')
    plt.xlim(bounds[0],bounds[2])
    plt.ylim(bounds[1],bounds[3])
    plt.show()


    結果如圖6所示:

    ▲圖6 tbd包繪制的出租車GPS數據分布

    4、訂單起訖點OD提取與聚合集計

    針對出租車GPS數據,TransBigData提供了直接從數據中提取出出租車訂單起訖點(OD)資訊的方法,程式碼如下:

    # 從GPS數據提取OD
    oddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus'])
    oddata

    結果如圖7所示:

    ▲圖7 tbd包提取的出租車OD

    TransBigData包提供的柵格化方法可以讓我們快速地進行柵格化定義,只需要修改accuracy參數,即可快速定義不同大小粒度的柵格。我們重新定義一個2km*2km的柵格座標系,將其參數傳入tbd.odagg_grid方法對OD進行柵格化聚合集計並生成GeoDataFrame:

    # 重新定義柵格,獲取柵格化參數
    params=tbd.area_to_params(bounds,accuracy = 2000)
    # 柵格化OD聯集計
    od_gdf=tbd.odagg_grid(oddata,params)
    od_gdf.plot(column = 'count')

    結果如圖8所示:

    ▲圖8 tbd集計的柵格OD

    添加地圖底圖,色條與比例尺指北針:

    # 建立圖框
    import matplotlib.pyplot as plt
    fig =plt.figure(1,(8,8),dpi=300)
    ax =plt.subplot(111)
    plt.sca(ax)
    # 添加行政區劃邊界作為底圖
    sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5)
    # 繪制colorbar
    cax=plt.axes([0.050.330.020.3])
    plt.title('Data count')
    plt.sca(ax)
    # 繪制OD
    od_gdf.plot(ax = ax,column = 'count',cmap = 'Blues_r',linewidth = 0.5,vmax = 10,cax = cax,legend = True)
    # 添加比例尺和指北針
    tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect = [0.06,0.03],zorder = 10)
    plt.axis('off')
    plt.xlim(bounds[0],bounds[2])
    plt.ylim(bounds[1],bounds[3])
    plt.show()


    結果如圖9所示:

    ▲ 圖9 TransBigData繪制的柵格OD數據

    同時,TransBigData包也提供了將OD直接聚合集計到區域間的方法:

    # OD集計到區域
    # 方法1:在不傳入柵格化參數時,直接用經緯度匹配
    od_gdf = tbd.odagg_shape(oddata,sz,round_accuracy=6)
    # 方法2:傳入柵格化參數時,程式會先柵格化後匹配以加快運算速度,數據量大時建議使用
    od_gdf = tbd.odagg_shape(oddata,sz,params = params)
    od_gdf.plot(column = 'count')

    結果如圖10所示:

    ▲圖10 tbd集計的小區OD

    載入地圖底圖並調整出圖參數:

    # 建立圖框
    import matplotlib.pyplot as plt
    import plot_map
    fig =plt.figure(1,(8,8),dpi=300)
    ax =plt.subplot(111)
    plt.sca(ax)
    # 添加行政區劃邊界作為底圖
    sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.2),linewidths=0.5)
    # 繪制colorbar
    cax = plt.axes([0.050.330.020.3])
    plt.title('count')
    plt.sca(ax)
    # 繪制OD
    od_gdf.plot(ax = ax,vmax = 100,column = 'count',cax = cax,cmap = 'autumn_r',linewidth = 1,legend = True)
    # 添加比例尺和指北針
    tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)
    plt.axis('off')
    plt.xlim(bounds[0],bounds[2])
    plt.ylim(bounds[1],bounds[3])
    plt.show()


    結果如圖11所示:

    ▲ 圖11區域間OD視覺化結果

    5、互動視覺化

    在TransBigData中,我們可以對出租車數據使用簡單的程式碼在jupyter notebook中快速進行互動視覺化。這些視覺化方法底層依托了keplergl包,視覺化的結果不再是靜態的圖片,而是能夠與滑鼠響應互動的地圖套用。

    tbd.visualization_data方法可以實作數據分布的視覺化,將數據傳入該方法後,TransBigData會首先對數據點進行柵格集計,然後生成數據的柵格,並將數據量對映至顏色上。程式碼如下:

    # 視覺化數據點分布
    tbd.visualization_data(data,col = ['lon','lat'],accuracy=1000,height = 500

    結果如圖12所示:

    ▲ 圖12數據分布的柵格視覺化

    對於出租車數據中所提取出的出行OD,也可使用tbd.visualization_od方法實作OD的弧線視覺化。該方法也會對OD數據進行柵格聚合集計,生成OD弧線,並將不同大小的OD出行量對映至不同顏色。程式碼如下:

    # 視覺化數據點分布
    tbd.visualization_od(oddata,accuracy=2000,height = 500)

    結果如圖13所示:

    ▲ 圖13 OD分布的弧線視覺化

    對個體級的連續追蹤數據,tbd.visualization_trip方法可以將數據點處理為帶有時間戳的軌跡資訊並動態地展示,程式碼如下:

    # 動態視覺化軌跡
    tbd.visualization_trip(data,col = ['lon','lat','VehicleNum','time'],height = 500)

    結果圖14所示。點選其中的播放鍵,可以看到出租車執行的動態軌跡效果。

    ▲ 圖14出租車軌跡動態視覺化