ASM插樁：學完ASM Tree api，再也不用怕hook了

2024-05-15碼農

作者：Pika
連結：https://juejin.cn/post/7121643784638562317

背景

對於ASM插樁來說，可能很多人都不陌生了，但是大多數可能都停留在core api上，對於現在市面上的一些插樁庫，其實很多都用tree api進行編寫了，因為tree api的簡單與明了的特性，也越來越成為許多開源庫的選擇。（ASM有兩套api型別，分別是core 和 tree）

ASM介紹

ASM其實就是一個可以編譯字節碼的工具，比如說我們日常開發會引入很多的類別庫對不對，又或者說我們的計畫太大了，想修改某個點的時候，統一修改容易出錯（比如私密合規問題等），這個時候如果能有一個工具對生成後的 class檔進行編輯的話，就非常方便我們進行後續的工作了。

本章主要介紹tree api，下文所說的ASM都是指tree api的操作 ！

class檔

我們常說的 class檔，其實從二進制的角度出發，無非是分成以下幾個部份：

可以看到，一個 class檔其實就是由上圖中的多個部份組成，而ASM，就是把這些結構進行了更進一步的抽象，對於 class檔，其實就是抽象成asm中的 class node類

對於一個 class檔來說，透過以下就可以進行唯一性辨識，分別是： version（版本），access（作用域，比如private等修飾詞），name（名稱），signature（泛型簽名），superName（父類），interfaces（實作的介面），fields（當前的內容），methoss（當前的方法）。所以如果想要修改一個 class，我們修改對應的 classNode即可

fields

內容，也是類非常重要的一部份，在字節碼中，是如此定義的

對於一個內容，ASM將其抽象為FieldNode

對於一個內容field來說，透過以下就可以進行唯一性辨識： access（作用域，跟 class結構一樣，比如private修飾），name（內容名稱），desc（簽名），signature（泛型簽名），value（當前對應的數值）

methods

相比於內容，我們的方法結構更為復雜

相比於內容的單一，一個方法可能由多條指令組成而，一個方法的成功執行，也涉及到局部變量表跟運算元棧的配合。ASM中把方法抽象成這樣一個定義 方法 = 方法頭+方法體

方法頭：即標識一個方法的基本內容，包括： access（作用域），name（方法名），desc（方法簽名），signature（泛型簽名），exceptions（方法可以丟擲的異常）

方法體：相比於方法頭，方法體的概念其實就比較簡單了，其實方法體就是方法的各條指令的集合，主要包括instrutions（方法的指令集），tryCatchBlocks（異常的節點集），maxStack（運算元棧的最大深度），maxLocals（本地變量表的最大長度）

可以看到，方法其中的InsnList物件，是特指方法的指令集的抽象，這裏繼續講解

InsnList

public classInsnListimplementsIterable<AbstractInsnNode> { privateint size; private AbstractInsnNode firstInsn; private AbstractInsnNode lastInsn; AbstractInsnNode[] cache; ...

可以看到，主要的物件就是firstInsn，與lastInsn，代表著方法指令集的頭指令與尾指令，每一個指令其實都被抽象成了AbstractInsnNode的子類別，AbstractInsnNode定義了一條指令最基礎的資訊，我們可以看看這個類的子類別

這裏我們再看看我們最常用的methodInsnNode

public classMethodInsnNodeextendsAbstractInsnNode{ /** * The internal name of the method's owner class (see {@link * org.objectweb.asm.Type#getInternalName()}). * * <p>For methods of arrays, e.g., {@code clone()}, the array type descriptor. */ public String owner; /** The method's name. */ public String name; /** The method's descriptor (see {@link org.objectweb.asm.Type}). */ public String desc; /** Whether the method's owner class if an interface. */ public boolean itf;

這個就是一個普通方法指令最根本的定義了，owner（方法呼叫者），name（方法名稱），desc（方法簽名）等等，他們都有著相似的結構，這個也是我們接下來會實戰的重點。

Signature

嗯！我們最後介紹一下這個神奇的東西！不知道大家在看介紹的時候，有沒有一臉疑惑，這個我解釋為泛型簽名，這個跟desc（函式簽名）參數有什麽區別呢？當然，這個不僅僅在函式上有出現，在內容，類的結構上都有出現！是不是非常神奇！

其實Signature內容是在JDK 1.5釋出後增加到了 class檔規範之中,它是一個可選的定長內容, 可以出現於類、內容表和方法表結構的內容表中。我們想想看，jdk1.5究竟是發生什麽了！其實就是對泛型的支持，那麽1.5版本之前的sdk怎麽辦，是不是也要進行相容了！所以java標準組就想到了一個折中的方法，就是泛型擦除，泛型資訊編譯(型別變量、參數化型別)之後都通通被擦除掉，以此來進行對前者的相容。那麽這又導致了一個問題，擦除的泛型資訊有時候正是我們所需要的，所以Signature就出現了，把這些泛型資訊儲存在這裏，以提供執行時反射等型別資訊的獲取！實際上可以看到，我們大部份的方法或者內容這個值都為null，只有存在泛型定義的時候，泛型的資訊才會被儲存在Signature裏面

實戰部份

好啦！有了理論基礎，我們也該去實戰一下，才不是口水文！以我們執行緒最佳化為例子，在工作計畫中，或者在老計畫中，可能存在大多數不規範的執行緒建立操作，比如直接new Thread等等，這樣生成的執行緒名就會被賦予預設的名字，我們這裏先把這類執行緒叫做「匿名執行緒」！當然！並不是說這個執行緒沒有名字，而是執行緒名一般是「Thread -1 」這種沒有額外資訊含量的名字，這樣對我們後期的執行緒維護會帶來很大的幹擾，時間長了，可能就存在大多數這種匿名執行緒，有可能帶來執行緒建立的oom crash！所以我們的目標是，給這些執行緒賦予「名字」，即呼叫者的名字

解決「匿名」Thread

為了達到這個目的，我們需要對thread的構造有一個了解，當然Thread的建構函式有很多，我們舉幾個例子

publicThread(String name) { init(null, null, name, 0); }

publicThread(ThreadGroup group, String name) { init(group, null, name, 0); }

可以看到，我們Thread的多個建構函式，最後一個參數都是name，即Thread的名稱，所以我們的hook點是，能不能在Thread的構造過程，呼叫到有name的建構函式是不是就可以實作我們的目的了！我們再看一下普通的new Thread（）字節碼

那麽我們怎麽才能把new Thread（）的方式變成 new Thread（name）的方式呢？很簡單！只需要我們把init的這條指令變成有參的方式就可以了，怎麽改變呢？其實就是改變desc！方法簽名即可，因為一個方法的呼叫，就是依據方法簽名進行匹配的。我們在函式後面添加一個string的參數即可

node是methidInsnNode def desc = "${node.desc.substring(0, r)}Ljava/lang/String;${node.desc.substring(r)}" node.desc = desc

那麽這樣我們就可以完成了嗎，非也非也，我們只是給方法簽名對加了一個參數，但是這並不代表我們函式就是這麽執行的！因為方法參數的參數列中的string參數我們還沒放入運算元棧呢！那麽我們就可以構造一個string參數放入運算元棧中，這個指令就是ldc指令啦！asm為我們提供了一個類是LdcInsnNode，我們可以建立一個該類物件即可，構造參數需要傳入一個字串，那麽這個就可以把當前方法的owner（解釋如上，呼叫者名稱）放進去了，是不是就達到我們想要的目的了！好啦！東西我們又了，我們要在哪裏插入呢？

所以我們的目標很明確，就是在init指令呼叫前插入即可，asm也提供了insertBefore方法，提供在某個指令前插入的便捷操作。

method.instructions.insertBefore( node, newLdcInsnNode(klass.name) )

我們看看最後插入後的字節碼

當然，我們插入asm程式碼一般是在android提供給我們的Transform階段進行的（agp新版有改變，但是大體工作流程一致），所以我們在transfrom中為了避免對類的過度幹擾，我們還需要把不必要的階段提早剔除！比如我們只在new Thread操作，那麽就把非Opcodes.INVOKESPECIAL的操作過濾即可。還有就是非init階段（即非建構函式階段）或者owner不為Thread類就可以提前過濾，不參與更改即可。

那我們看到完整的程式碼（需要在Transform中執行的程式碼）

staticvoid transform( classNode klass) { println("ThreadTransformUtils") // 這裏只處理Thread klass.methods?.forEach { methodNode -> methodNode.instructions.each { // 如果是建構函式才繼續進行 if (it.opcode == Opcodes.INVOKESPECIAL) { transformInvokeSpecial((MethodInsnNode) it, klass, methodNode) } } } } private staticvoid transformInvokeSpecial(MethodInsnNode node, classNode klass, MethodNode method) { // 如果不是建構函式，就直接結束 if (node.name != "<init>" || node.owner != THREAD) { return } println("transformInvokeSpecial") transformThreadInvokeSpecial(node, klass, method) } private staticvoid transformThreadInvokeSpecial( MethodInsnNode node, classNode klass, MethodNode method ) { switch (node.desc) { // Thread() case"()V": // Thread(Runnable) case"(Ljava/lang/Runnable;)V": method.instructions.insertBefore( node, new LdcInsnNode(klass.name) ) def r = node.desc.lastIndexOf(')') def desc = "${node.desc.substring(0, r)}Ljava/lang/String;${node.desc.substring(r)}" // println(" + $SHADOW_THREAD.makeThreadName(Ljava/lang/String;Ljava/lang/String;) => ${this.owner}.${this.name}${this.desc}: ${klass.name}.${method.name}${method.desc}") println(" * ${node.owner}.${node.name}${node.desc} => ${node.owner}.${node.name}$desc: ${klass.name}.${method.name}${method.desc}") node.desc = desc break } }

最後

看到這裏，應該可以了解到asm tree api相關用法與實戰了，希望能有所幫助！