- 一、什么是Protobuf
- 二、Protobuf环境配置
- 三、Protobuf实例序列化与反序列化
- 四、逆向解析 Protobuf案例
- 1、python序列化
- 2、python反序列化
-
1、protocol buffers介绍:是一种语言无关、平台无关、可扩展的序列化结构数据的方法。严格说不算是加密,只能是叫序列化结构数据,让可读变为疑似的乱码,那反序列化即让疑似的乱码变为可读
-
2、protobuf使用流程的前提是有一个.proto文件,对逆向而言就是还原.proto文件,选择编译成相应的编程语言包,然后调用包进行序列化和反序列化
- 比如编程语言选择python,则我们会将.proto文件先编译成python要用的python模块包(与requests等包类似)
- 接着就是用python调用已编译的模块包进行数据的序列化和反序列化
-
3、一个网站应用了Protobuf实例
- 如下图不管是请求参数还是响应参数,都返回了序列化的数据,虽然看似是乱码,实际上只是用Protobuf将原始数据进行了序列化,变得不可读了,我们将响应内容保存为test.bin文件
- 当然有的会直接在headers头指明媒体类型content-type: application/grpc-web+proto,也可通过此类方法判断
- 执行cmd命令protoc --decode_raw < test.bin(执行该命令,需下载解压protoc-3.19.1-win64.zip并添加bin目录为环境变量),如图结果已还原,和网站上的数据一致
- 1、点击链接下载protobuf,如图下载protobuf-python-3.19.1.zip 和 protoc-3.19.1-win64.zip
- 2、protoc编译器安装
- ① 解压protoc-3.19.1-win64.zip压缩包,并将该文件夹的bin目录D:Softwareprotoc-3.19.1-win64bin添加到环境变量
- ② 打开cmd输入protoc --version显示出版本号,则代表protoc编译器安装成功
- ① 解压protoc-3.19.1-win64.zip压缩包,并将该文件夹的bin目录D:Softwareprotoc-3.19.1-win64bin添加到环境变量
- 3、python依赖protoc模块安装
- ① 解压protobuf-python-3.19.1.zip压缩包,然后切换到D:Softwareprotobuf-3.19.1python目录下,打开cmd,执行如下两条命令:python setup.py build 和python setup.py install
- ② 打开python解释器,导入import google.protobuf 可以检测protobuf模块是否安装成功,未报错即成功
- ① 解压protobuf-python-3.19.1.zip压缩包,然后切换到D:Softwareprotobuf-3.19.1python目录下,打开cmd,执行如下两条命令:python setup.py build 和python setup.py install
- 4、vscode安装vscode-proto3插件,可以选择性安装,只是为了打开.proto文件好看点
- 参考猿人学文档Protobuf协议逆向解析
- 可以先熟悉下Protobuf3语言指南
- 如要传输的数据格式类似如下,然后我们用proto3语法写一个.proto文件
{ "name": "shirmay", "id": 11, "mail": "21421312.@qq.com" { "telnumber": "133110120**", "type": 2 } } - Protobuf实例序列化与实例化的流程图介绍,新建>编译>序列化(输出内容不可读)>反序列化(输出内容可读)
-
① 新建yrx_example.proto文件:按上数据格式用proto3语法新建yrx_example.proto文件,内容如下:如下数据有message消息类型,enum枚举类型, string字符串类型,int32整型;在消息定义中,每个字段都有唯一的一个数字标识符,也就是下面当中的1,2,3
syntax = "proto3"; // 指定使用proto3的语法, 在一个.proto文件中可以定义多个message消息类型 message Person { string name = 1; // string类型 :姓名, 标识符1 int32 id = 2; // 整型 :id, 标识符2 string email = 3; // string类型 :邮箱, 标识符3 message PhoneNumber { string telnumber = 1; // 电话号码 // enum枚举类型,自定义一个PhoneType类型,每个枚举类型必须将其第一个类型映射为0(必须有有一个0值,我们可以用这个0值作为默认值) enum PhoneType { MOBILE = 0; // 手机电话类 HOME = 1; // 家庭电话类 WORK = 2; // 工作电话类 } PhoneType type = 2; } repeated PhoneNumber phones = 4; // 将其他消息类型如PhoneNumber当作字段类型,如Person消息中包含PhoneNumber消息 } message AddressBook{ repeated Person person = 1; // 将其他消息类型如Person当作字段类型,如希望AddressBook消息中包含Person消息 } -
② 编译yrx_example.proto文件:在cmd里面输入protoc -–python_out=. yrx_example.proto,此时会在当前目录下生成yrx_example_pb2.py文件
-
③ python代码序列化yrx_example.proto文件,并将序列化内容存到yrx_example_person.bin文件中,此时数据完全不可读即看不懂
import yrx_example_pb2 address_book = yrx_example_pb2.AddressBook() person = address_book.person.add() person.id = 11 person.name = "shirmay" person.email = "110120119.@qq.com" phone = person.phones.add() phone.telnumber = "133110120**" phone.type = 2 with open("yrx_example_person.bin", "wb") as f: print(address_book.SerializeToString()) # b'n/nx07shirmayx10x0bx1ax11110120119.@qq.com"x0fnx0b133110120**x10x02' f.write(address_book.SerializeToString()) -
③ python代码反序列化yrx_example_person.bin文件,还原为可读数据
import yrx_example_pb2 def list_people(addr_book): for person in addr_book.person: print(f"id: {person.id}") print(f"name: {person.name}") print(f"email: {person.email}") for num in person.phones: print(f"phone_num: {num.telnumber}") print(f"phone type: {num.type}") address_book = yrx_example_pb2.AddressBook() with open("yrx_example_person.bin", "rb") as f: address_book.ParseFromString(f.read()) list_people(address_book) -
⑤ 逆向分析还原.proto文件:通过上面的步骤,我们发现不管序列化和反序列化,我们首先得有.proto文件,只要有了.proto文件,我们就可以编译成python的proto模块,然后就可以正常序列化和反序列化了;所以逆向解析Protobuf的过程就是还原.proto文件
- 已知我们有了yrx_example_person.bin文件,通过cmd执行命令protoc --decode_raw < yrx_example_person.bin即可反序列化看到左图第一版的结果,然后我们还原成中间第二版.proto文件的样子,再多次调整即可。有了.proto文件就可以正常的序列化和反序列化了
- 已知我们有了yrx_example_person.bin文件,通过cmd执行命令protoc --decode_raw < yrx_example_person.bin即可反序列化看到左图第一版的结果,然后我们还原成中间第二版.proto文件的样子,再多次调整即可。有了.proto文件就可以正常的序列化和反序列化了
- ① 如图,将序列化请求数据保存为challenge_23_post.bin文件,请求参数内容复制如下保存为.bin文件即可
õÿž†Ýÿž† Âý®
- ② 然后输入cmd命令protoc --decode_raw < challenge_23_post.bin查看反序列结果
- ③ 根据反编译结果理解,直接编写challenge_23_post.proto文件如下
- ④ 执行cmd命令protoc -–python_out=. challenge_23_post.proto将challenge_23_post.proto编译生成python包challenge_23_post_pb2.py
- ⑤ 编写python代码生成序列化数据
import challenge_23_post_pb2 post_serialize = challenge_23_post_pb2.Ms1() post_serialize.filed1 = 2 post_serialize.filed2 = 219841801546160835 post_serialize.filed3 = 219841801546157763 post_serialize.filed4 = 36782765818179 print(post_serialize.SerializeToString()) with open(r"challenge_23_post.bin", "wb") as f: f.write(post_serialize.SerializeToString())
-
① 如图,将序列化响应数据保存为challenge_23_resp.bin文件,响应内容样例复制如下保存为.bin文件即可
��0�G N(� 0�8�;@�LH�"P�"
-
② 然后输入cmd命令protoc --decode_raw < challenge_23_resp.bin查看反序列结果
-
③ 根据反编译结果理解,直接编写challenge_23_resp.proto文件如下
-
④ 执行cmd命令protoc -–python_out=. challenge_23_resp.proto将challenge_23_resp.proto编译生成python包challenge_23_resp_pb2.py
-
⑤ 编写python代码反序列化结果
import challenge_23_resp_pb2 resp_deserialize = challenge_23_resp_pb2.Ms2() with open("challenge_23_resp.bin", "rb") as f: resp_deserialize.ParseFromString(f.read()) count = resp_deserialize.filed1 + resp_deserialize.filed2 + resp_deserialize.filed3 + resp_deserialize.filed4 + resp_deserialize.filed5 + resp_deserialize.filed6 + resp_deserialize.filed7 + resp_deserialize.filed8 + resp_deserialize.filed9 + resp_deserialize.filed10 print(count) # 47662



