當前位置: 妍妍網 > 碼農

ASM插樁:學完ASM Tree api,再也不用怕hook了

2024-05-15碼農

作者:Pika
連結:https://juejin.cn/post/7121643784638562317

背景

對於ASM插樁來說,可能很多人都不陌生了,但是大多數可能都停留在core api上,對於現在市面上的一些插樁庫,其實很多都用tree api進行編寫了,因為tree api的簡單與明了的特性,也越來越成為許多開源庫的選擇。(ASM有兩套api型別,分別是core 和 tree)

ASM介紹

ASM其實就是一個可以編譯字節碼的工具,比如說我們日常開發會引入很多的類別庫對不對,又或者說我們的計畫太大了,想修改某個點的時候,統一修改容易出錯(比如私密合規問題等),這個時候如果能有一個工具對生成後的 class檔進行編輯的話,就非常方便我們進行後續的工作了。

本章主要介紹tree api,下文所說的ASM都是指tree api的操作

class檔

我們常說的 class檔,其實從二進制的角度出發,無非是分成以下幾個部份:

可以看到,一個 class檔其實就是由上圖中的多個部份組成,而ASM,就是把這些結構進行了更進一步的抽象,對於 class檔,其實就是抽象成asm中的 class node類

對於一個 class檔來說,透過以下就可以進行唯一性辨識,分別是: version(版本),access(作用域,比如private等修飾詞),name(名稱),signature(泛型簽名),superName(父類),interfaces(實作的介面),fields(當前的內容),methoss(當前的方法) 。所以如果想要修改一個 class,我們修改對應的 classNode即可

fields

內容,也是類非常重要的一部份,在字節碼中,是如此定義的

對於一個內容,ASM將其抽象為FieldNode

對於一個內容field來說,透過以下就可以進行唯一性辨識: access(作用域,跟 class結構一樣,比如private修飾),name(內容名稱),desc(簽名),signature(泛型簽名),value(當前對應的數值)

methods

相比於內容,我們的方法結構更為復雜

相比於內容的單一,一個方法可能由多條指令組成而,一個方法的成功執行,也涉及到局部變量表跟運算元棧的配合。ASM中把方法抽象成這樣一個定義 方法 = 方法頭+方法體

  • 方法頭:即標識一個方法的基本內容,包括: access(作用域),name(方法名),desc(方法簽名),signature(泛型簽名),exceptions(方法可以丟擲的異常)

  • 方法體:相比於方法頭,方法體的概念其實就比較簡單了,其實方法體就是方法的各條指令的集合,主要包括instrutions(方法的指令集),tryCatchBlocks(異常的節點集),maxStack(運算元棧的最大深度),maxLocals(本地變量表的最大長度)

    可以看到,方法其中的InsnList物件,是特指方法的指令集的抽象,這裏繼續講解

  • InsnList

    public classInsnListimplementsIterable<AbstractInsnNode{
    privateint size;
    private AbstractInsnNode firstInsn;
    private AbstractInsnNode lastInsn;
    AbstractInsnNode[] cache;
    ...

    可以看到,主要的物件就是firstInsn,與lastInsn,代表著方法指令集的頭指令與尾指令,每一個指令其實都被抽象成了AbstractInsnNode的子類別,AbstractInsnNode定義了一條指令最基礎的資訊,我們可以看看這個類的子類別

    這裏我們再看看我們最常用的methodInsnNode

    public classMethodInsnNodeextendsAbstractInsnNode{
    /**
    * The internal name of the method's owner class (see {@link
    * org.objectweb.asm.Type#getInternalName()}).
    *
    * <p>For methods of arrays, e.g., {@code clone()}, the array type descriptor.
    */

    public String owner;
    /** The method's name. */
    public String name;
    /** The method's descriptor (see {@link org.objectweb.asm.Type}). */
    public String desc;
    /** Whether the method's owner class if an interface. */
    public boolean itf;


    這個就是一個普通方法指令最根本的定義了,owner(方法呼叫者),name(方法名稱),desc(方法簽名)等等,他們都有著相似的結構,這個也是我們接下來會實戰的重點。

    Signature

    嗯!我們最後介紹一下這個神奇的東西!不知道大家在看介紹的時候,有沒有一臉疑惑,這個我解釋為泛型簽名,這個跟desc(函式簽名)參數有什麽區別呢?當然,這個不僅僅在函式上有出現,在內容,類的結構上都有出現!是不是非常神奇!

    其實Signature內容是在JDK 1.5釋出後增加到了 class檔規範之中,它是一個可選的定長內容, 可以出現於類、內容表和方法表結構的內容表中。我們想想看,jdk1.5究竟是發生什麽了!其實就是對泛型的支持,那麽1.5版本之前的sdk怎麽辦,是不是也要進行相容了!所以java標準組就想到了一個折中的方法,就是泛型擦除,泛型資訊編譯(型別變量、參數化型別)之後 都通通被擦除掉,以此來進行對前者的相容。那麽這又導致了一個問題,擦除的泛型資訊有時候正是我們所需要的,所以Signature就出現了,把這些泛型資訊儲存在這裏,以提供執行時反射等型別資訊的獲取!實際上可以看到,我們大部份的方法或者內容這個值都為null,只有存在泛型定義的時候,泛型的資訊才會被儲存在Signature裏面

    實戰部份

    好啦!有了理論基礎,我們也該去實戰一下,才不是口水文!以我們執行緒最佳化為例子,在工作計畫中,或者在老計畫中,可能存在大多數不規範的執行緒建立操作,比如直接new Thread等等,這樣生成的執行緒名就會被賦予預設的名字,我們這裏先把這類執行緒叫做「匿名執行緒」!當然!並不是說這個執行緒沒有名字,而是執行緒名一般是「Thread -1 」這種沒有額外資訊含量的名字,這樣對我們後期的執行緒維護會帶來很大的幹擾,時間長了,可能就存在大多數這種匿名執行緒,有可能帶來執行緒建立的oom crash!所以我們的目標是,給這些執行緒賦予「名字」,即呼叫者的名字

    解決「匿名」Thread

    為了達到這個目的,我們需要對thread的構造有一個了解,當然Thread的建構函式有很多,我們舉幾個例子

    publicThread(String name{
    init(nullnull, name, 0);
    }

    publicThread(ThreadGroup group, String name{
    init(groupnull, name, 0);
    }

    可以看到,我們Thread的多個建構函式,最後一個參數都是name,即Thread的名稱,所以我們的hook點是,能不能在Thread的構造過程,呼叫到有name的建構函式是不是就可以實作我們的目的了!我們再看一下普通的new Thread()字節碼

    那麽我們怎麽才能把new Thread()的方式變成 new Thread(name)的方式呢?很簡單!只需要我們把init的這條指令變成有參的方式就可以了,怎麽改變呢?其實就是改變desc!方法簽名即可,因為一個方法的呼叫,就是依據方法簽名進行匹配的。我們在函式後面添加一個string的參數即可

    node是methidInsnNode
    def desc =
    "${node.desc.substring(0, r)}Ljava/lang/String;${node.desc.substring(r)}"
    node.desc = desc

    那麽這樣我們就可以完成了嗎,非也非也,我們只是給方法簽名對加了一個參數,但是這並不代表我們函式就是這麽執行的!因為方法參數的參數列中的string參數我們還沒放入運算元棧呢!那麽我們就可以構造一個string參數放入運算元棧中,這個指令就是ldc指令啦!asm為我們提供了一個類是LdcInsnNode,我們可以建立一個該類物件即可,構造參數需要傳入一個字串,那麽這個就可以把當前方法的owner(解釋如上,呼叫者名稱)放進去了,是不是就達到我們想要的目的了!好啦!東西我們又了,我們要在哪裏插入呢?

    所以我們的目標很明確,就是在init指令呼叫前插入即可,asm也提供了insertBefore方法,提供在某個指令前插入的便捷操作。

    method.instructions.insertBefore(
    node,
    newLdcInsnNode(klass.name)
    )

    我們看看最後插入後的字節碼

    當然,我們插入asm程式碼一般是在android提供給我們的Transform階段進行的(agp新版有改變,但是大體工作流程一致),所以我們在transfrom中為了避免對類的過度幹擾,我們還需要把不必要的階段提早剔除!比如我們只在new Thread操作,那麽就把非Opcodes.INVOKESPECIAL的操作過濾即可。還有就是非init階段(即非建構函式階段)或者owner不為Thread類就可以提前過濾,不參與更改即可。

    那我們看到完整的程式碼(需要在Transform中執行的程式碼)

    staticvoid transform( classNode klass) {
    println("ThreadTransformUtils")
    // 這裏只處理Thread
    klass.methods?.forEach { methodNode ->
    methodNode.instructions.each {
    // 如果是建構函式才繼續進行
    if (it.opcode == Opcodes.INVOKESPECIAL) {
    transformInvokeSpecial((MethodInsnNode) it, klass, methodNode)
    }
    }
    }
    }
    private staticvoid transformInvokeSpecial(MethodInsnNode node, classNode klass, MethodNode method) {
    // 如果不是建構函式,就直接結束
    if (node.name != "<init>" || node.owner != THREAD) {
    return
    }
    println("transformInvokeSpecial")
    transformThreadInvokeSpecial(node, klass, method)
    }
    private staticvoid transformThreadInvokeSpecial(
    MethodInsnNode node,
    classNode klass,
    MethodNode method
    ) {
    switch (node.desc) {
    // Thread()
    case"()V":
    // Thread(Runnable)
    case"(Ljava/lang/Runnable;)V":
    method.instructions.insertBefore(
    node,
    new LdcInsnNode(klass.name)
    )
    def r = node.desc.lastIndexOf(')')
    def desc =
    "${node.desc.substring(0, r)}Ljava/lang/String;${node.desc.substring(r)}"
    // println(" + $SHADOW_THREAD.makeThreadName(Ljava/lang/String;Ljava/lang/String;) => ${this.owner}.${this.name}${this.desc}: ${klass.name}.${method.name}${method.desc}")
    println(" * ${node.owner}.${node.name}${node.desc} => ${node.owner}.${node.name}$desc: ${klass.name}.${method.name}${method.desc}")
    node.desc = desc
    break
    }
    }



    最後

    看到這裏,應該可以了解到asm tree api相關用法與實戰了,希望能有所幫助!