读书笔记
🌓论文精读:《LLM4CP: Adapting Large Language Models for Channel Prediction》使用大模型对信道进行预测
00 分钟
2024-9-27
2024-10-8
type
status
date
slug
summary
tags
category
icon
password
Property
Oct 8, 2024 04:53 PM

引言

  • 传统的CSI估计方法问题:尤其在高速环境中,面临着诸如信道时效性(CSI快速变化)以及在频分双工系统中由于上下行信道非互易性而导致的反馈开销增加等挑战
  • 深度学习方法存在高复杂度和泛化性问题
  • 大语言模型(LLM),以其强大的跨模态迁移能力,成为了一个新的研究方向
本文提出LLM4CP,预训练的大语言模型(如GPT-2)适配于信道预测任务

系统模型

本文讨论的系统模型是一个多输入单输出正交频分复用(MISO-OFDM)系统。基站配备了一个双极化平面阵列天线(UPA),而移动用户配备了一个全向天线。系统能够在时分双工(TDD)和频分双工(FDD)模式下工作。

信道模型

  • 基站与用户之间的信道通过簇状多径模型来建模。在时间t和频率 f下的下行CSI表示为:
    • 其中,是簇的数量, 是每个簇中的路径数量,分别表示路径增益、多普勒频移、时延和随机相位。
  • 用户运动引起的多普勒频移计算公式为:
    • 其中,是用户的速度,是光速。波束方向矢量 表示信号的空间特性。

信号模型

  • 在下行MISO-OFDM系统中,用户接收跨多个子载波的信号。第 个子载波的下行CSI 由估计或预测获得,接收的信号表示为:
    • 其中,是预编码向量,是发射信号,是加性噪声。
  • 可实现的频谱效率(SE)表示为:

信道预测问题的形式化

基于信道预测的传输方案

在传统系统中,CSI的获取通常通过TDD系统中的信道互易性或者FDD系统中的用户反馈来实现。这些方法带来了反馈延迟以及导频传输所消耗的资源问题。信道预测通过基于历史的上行CSI预测未来的下行CSI,消除了对频繁反馈的需求,提升了系统效率。

问题定义

任务是基于历史的上行CSI ,准确预测未来的下行CSI 。预测精度使用归一化均方误差(NMSE)进行度量:
目标是通过学习映射函数 来最小化,其中是模型参数

大语言模型在信道预测中的应用

notion image
LLM4CP 引入了几个模块,以将GPT-2应用于信道预测任务:

预处理模块

  • 由于CSI数据的维度较高,预处理模块通过并行化CSI处理简化了问题
  • 利用逆离散傅里叶变换(IDFT)提取时延域特征,并对其进行归一化处理,最终转换为适合神经网络输入的实值张量。
  • 给定时间的上行CSI矩阵 ,直接将其输入到模型中处理会导致计算复杂度较高,尤其是在天线和子载波数量较大的情况下。因此,本文对天线对(即发射和接收天线的组合)进行并行处理,并分别预测每个天线对的CSI
  • 对于第 j 个发射天线,模型的输入样本为:
    • 其中,表示第个天线的上行CSI数据。
  • 时延域是频域的对偶域,能够很好地表示每个多径分量的时延信息。因此,模型还通过逆离散傅里叶变换将频域表示转换为时延域表示:
    • 其中维的DFT矩阵。
  • 因为神经网络通常处理的是实数,而不是复数,因此我们需要将频域表示和时延域表示 转换为实数张量,分别表示为
  • 为了促进网络的训练和收敛,输入数据首先会经过归一化处理:
    • 其中 分别表示对应域的均值和标准差。
  • 张量被重新排列为适合输入到神经网络的格式,即

嵌入模块

notion image
  • 嵌入模块通过CSI注意力机制提取特征,
  • 受到图像处理中的相关技术启发
  • 注意力模块增强了对CSI数据中重要区域的特征提取
  • 通过位置编码来处理CSI数据的时间结构,这与大语言模型处理文本时的方式相似。
  • 嵌入层在模型中将原始数据转换为特征表示,以便后续的神经网络能够有效地处理这些特征。对于论文中提到的信道预测任务,
  • 嵌入层的核心作用是从信道状态信息数据中提取有效特征,并为后续的大语言模型(LLM)处理做准备
嵌入层的输入和输出
  • 输入是经过预处理的CSI数据,形式为实数张量,包含了经过归一化处理的频域和时延域表示。
  • 输入数据可能具有复杂的时空相关性,直接输入到大语言模型中可能无法充分利用其结构化信息。因此,嵌入层需要首先对这些数据进行特征提取。
  • 嵌入层的输出是将原始的CSI数据表示为更紧凑的高维特征向量,这使得后续的LLM能够更高效地处理这些特征。
具体的操作流程
  1. CSI注意力机制(CSI Attention Mechanism)
    1. 卷积网络通过卷积操作提取局部的时空特征,可以捕捉CSI数据中的局部时频关系。这一过程包括以下几个步骤:
      • 卷积层(Convolution Layers):对输入的CSI张量进行卷积操作。卷积层通过不同大小的卷积核,提取CSI数据中的局部时空特征。这一步能够将高维输入数据压缩为低维特征表示,同时保留数据的关键信息。
      • Squeeze-and-Excitation(SE)模块:卷积网络中的一种增强机制,通过对卷积层输出的特征进行全局分析,生成不同特征片段的重要性权重。
        • 作用:CSI注意力机制的作用是通过卷积操作和SE模块,从原始CSI数据中提取时空相关的特征,同时通过注意力权重提升关键特征的影响。这一部分帮助模型更好地理解信道中的复杂相关性。
  1. 位置嵌入(Positional Embedding)
    1. 由于CSI数据具有明显的时间和频率结构,位置嵌入在这里的作用是为网络提供这些结构信息。
      • 位置编码:将时间和频率等位置信息编码为向量,并与输入数据结合。通过这种方式,模型不仅能“看到”当前时刻或频率下的CSI数据,还能了解这些数据在整个序列中的位置和关系。
      作用:位置嵌入允许模型学习和利用CSI数据的时间序列和频率分布的结构信息。这使得模型可以处理具有时序和频域特征的复杂信道环境。
  1. 嵌入层的总体作用
      • 桥接原始数据与主干网络(GPT-2)之间的差距
      • 通过嵌入层将原始的CSI数据转化为模型可以理解的特征表示。
      具体作用总结如下:
      • 特征增强:通过SE模块对重要特征赋予更大的权重,提升模型对关键特征的关注。
      • 特征提取:通过卷积网络(CNN)提取CSI数据中的时频局部特征。
      • 位置感知:通过位置嵌入,模型能够理解CSI数据的时序和频域结构。
      这些操作确保了原始CSI数据可以以一种结构化的方式进入GPT-2模型进行进一步的处理,最终实现高精度的信道预测。
  1. 嵌入层在信道预测中的意义
    1. 嵌入层确保了模型能够理解信道数据的复杂特性
      信道数据不仅具有频域和时域的相关性,还有多天线、多路径传播等特性。因此,嵌入层通过提取时空特征和增强关键特征,使得模型能够有效地应对这些复杂性,进而提升CSI预测的准确性和鲁棒性。

主干网络


  • 预训练的GPT-2模型
  • 大部分层被冻结
  • 仅微调少数层(如层归一化位置嵌入层),使模型能够适应信道预测任务,同时保留预训练模型中获取的通用知识。
  • 输出模块的作用是将LLM的输出特征转换为预测的下行CSI结果。首先,经过LLM的输出特征会通过两个全连接层进行转换:
    • 其中表示全连接层,是预测的时间长度。然后将输出重整为 ,其第一维代表实部,第二维代表虚部。
  • 为了得到最终的下行CSI预测结果,需要进行反归一化(De-normalization),恢复数据的原始尺度:
  • 最后,预测的下行CSI 表示为:
    • 其中, 是虚数单位,表示复数的虚部。

输出模块

输出模块将GPT-2提取的特征转换为最终的CSI预测结果。通过两个全连接层(FC layers)将LLM的输出转化为所需的CSI格式。最后,预测的CSI通过反归一化恢复到实际CSI的尺度。
 

PPT


系统模型

系统概述

  • 系统类型:单小区MISO-OFDM系统
  • 系统组成
    • 基站(BS):配备双极化的平面阵列天线(UPA)
    • 用户设备(UE):配备全向天线
  • 适用模式:同时支持时分双工(TDD)和频分双工(FDD)
天线结构
  • 水平方向天线数:
  • 垂直方向天线数:
  • 总天线数:

信道模型(Channel Model)

  • 本文采用基于簇的多径信道模型,来描述基站与用户之间的下行链路信道状态信息(CSI)。
公式
  • 变量含义
    • :簇的数量
    • :第 n 簇中的路径数
    • :第 n 簇第 m 路径的复路径增益
    • :第 n 簇第 m 路径的多普勒频移
    • :第 n 簇第 m 路径的时延
    • :第 n 簇第 m 路径的随机相位
    • , :该路径的波束成形向量

多普勒频移计算

  • 用户在移动时,信号的多普勒频移是信道随时间变化的主要原因。
公式
  • 变量含义
    • :用户的即时速度
    • :载波频率
    • :速度方向与路径方向之间的夹角
    • :光速

波束成形向量

  • 波束成形向量 描述了信号通过特定路径时的方向信息。
公式
  • 水平方向的波束成形向量
  • 垂直方向的波束成形向量
  • 变量含义
    • :天线水平间距
    • :天线垂直间距
    • :方位角
    • :俯仰角

信号模型(Signal Model)

  • 系统使用OFDM技术,其中在下行链路传输中激活了个子载波。
公式
  • 个子载波的下行链路CSI:
  • 用户在第 子载波上接收到的信号:
    • :传输预编码向量
    • :发送的符号
    • :加性高斯白噪声(AWGN)

系统频谱效率(SE)

  • 系统频谱效率通过所有子载波的传输速率之和表示:
公式
  • 匹配滤波预编码器
  • 如果不准确,会导致 的不匹配,从而降低系统的频谱效率。

信道预测的背景

  • 在传统的无线通信系统中,信道状态信息(CSI)是通过在TDD模式下的信道互易性,或者在FDD模式下通过用户反馈获取的。
  • 问题
    • TDD系统依赖于信道互易性,在用户高速移动场景中信道时变性(Channel Aging)显著,影响性能。
    • FDD系统需要大量的上行链路反馈,反馈开销大,影响系统效率。
解决方法:通过信道预测来减少反馈开销,提升信道估计的精度。

信道预测的目标

  • 信道预测的目的是利用历史上行CSI数据,预测未来的下行CSI,从而减少对频繁反馈的依赖。
任务定义
  • 已知:历史的上行CSI序列
  • 预测:未来时刻的下行CSI
  • 目标:学习一个映射函数
    • 其中是模型的参数, 是预测的时序长度。

损失函数定义

为了评估预测的精度,论文使用了归一化均方误差(NMSE)作为损失函数,来衡量预测的CSI与真实CSI之间的误差:
归一化均方误差(NMSE)公式
  • :模型预测的未来时刻的下行CSI
  • :真实的未来下行CSI
  • :表示弗罗贝尼乌斯范数,即矩阵中元素的平方和开根号,用于衡量矩阵的误差大小。

问题的挑战

在实际信道预测中,存在多个挑战:
  1. 高维度CSI数据:信道状态信息(CSI)是一个高维度的复数矩阵,包含大量时频信息,直接预测会非常复杂。
  1. 信道的时变性:随着时间变化,信道的特性(如增益、时延)也不断变化,这增加了预测的难度。
  1. 噪声与多径效应:信道传播过程中可能受到噪声和多径干扰,增加了对真实CSI进行建模的难度。

基于深度学习的解决方案

  • 深度学习模型的优势:能够从历史数据中捕捉复杂的时频关系,并进行高效的CSI预测。
  • 本文提出的模型(LLM4CP)使用了预训练的大语言模型(LLM),通过微调这些模型来进行信道预测,解决了以下问题:
    • 高维数据的处理问题
    • 信道的时变性建模
    • 噪声的鲁棒性


LLM用于信道预测的概述

  • 问题背景:传统深度学习方法如RNN、LSTM和CNN虽然能进行信道预测,但存在高复杂度、泛化能力弱等问题。
  • LLM(大语言模型)的引入:通过预训练的GPT-2等大语言模型,利用其在自然语言处理中的强大建模能力,适应信道预测任务。
    • 优点:LLM具有强大的跨领域迁移能力,尤其适用于处理高维序列数据。
    • 核心思想:通过对大语言模型进行微调,利用历史的上行CSI数据预测未来的下行CSI。

LLM4CP模型架构

LLM4CP(Large Language Model for Channel Prediction)结构包含以下主要模块:
  1. 预处理模块:将高维的CSI数据进行降维处理,提取关键特征。
  1. 嵌入模块:将处理后的CSI数据嵌入到大语言模型的输入层,利用特定的CSI注意力机制。
  1. 主干网络:基于GPT-2的大语言模型,处理时序特征。
  1. 输出模块:将大语言模型的输出转化为未来时刻的CSI预测。

 

频域数据的预处理

频域数据的基本概念

频域数据表示信道在不同子载波频率下的响应信息,特别是在OFDM系统中,每个子载波上的信道状态信息(CSI)都会有所不同。
  • 复数矩阵形式:频域数据通常表示为一个复数矩阵,每个元素包含了增益(幅度)和相位信息。公式如下: 其中:
    • 行维度:表示不同的子载波频率。例如,在一个OFDM系统中,可能有48个子载波,每个子载波对应一个行。
    • 列维度:表示时间上的不同采样点,或者不同天线上的CSI信息。

频域数据的特征

  • 复数形式:每个元素 是一个复数,它包含信号通过信道后的增益和相位变化,实部和虚部分别表示实际信号分量。
  • 频率选择性:由于信道的频率选择性衰落,不同频率子载波的CSI表现不同,因此频域数据可以有效反映信道在不同频率上的衰落特性。

频域数据的意义

  • 信道估计:频域数据用于在不同频率子载波上估计信道的状态,帮助系统了解每个子载波的信道特性。
  • 频率选择性衰落补偿:通过频域数据,系统可以识别频率选择性衰落的影响,并设计补偿策略,保证数据传输的稳定性和质量。

频域到时延域的转换

时延域数据的基本概念

为了更好地提取信号的时延特性,频域数据需要转换为时延域数据。时延域数据可以揭示信号通过不同路径到达接收端时所经历的时间延迟,帮助理解信道的多径效应

频域到时延域的转换公式

通过逆离散傅里叶变换(IDFT),可以将频域数据转换为时延域数据:
    • 是频域中的CSI数据。
    • DFT矩阵的共轭转置。
    • 是时延域中的CSI数据。

时延域数据的意义

  • 时延特性:时延域数据中的每个元素表示信号通过不同路径到达接收端时的增益和时延。与频域数据相比,时延域数据更适合分析信道的多径效应。
  • 路径分辨能力:时延域数据能够帮助系统分辨出信号通过不同传播路径的具体时延信息,尤其是在复杂的传播环境中,如城市和室内环境,信号会经过多个反射面到达接收端。

数据格式的转换与归一化

将复数形式的CSI数据转换为实数张量

由于神经网络通常处理的是实数数据,因此我们需要将复数形式的频域和时延域CSI数据转换为实数张量
  • 频域表示
    • 实数张量的两个通道分别表示复数的实部和虚部。
  • 时延域表示
    • 将时延域中的复数数据转换为实数形式,便于后续的模型处理。

数据归一化

为了保证模型在处理数据时的稳定性和效率,我们对CSI数据进行归一化处理,确保数据在标准正态分布下(即均值为0,标准差为1)。
归一化公式如下:
  • :频域和时延域数据的均值。
  • :频域和时延域数据的标准差。
通过归一化操作,可以消除不同特征之间的数值差异,提高模型的训练效率。

数据的物理意义和应用场景

频域数据的物理意义

  • 信道在不同频率的响应:频域数据反映了信道在不同频率子载波上的响应信息,有助于了解信道的频率选择性衰落特性,适合用于信道估计补偿设计

时延域数据的物理意义

  • 信道的时延扩展和多径效应:时延域数据揭示了信号在传播过程中所经历的时延信息,能够帮助分析多径传播环境下的信道特性,尤其是用于多径传播分析时延补偿

频域和时延域数据的应用场景

  • 频域表示:适合于分析信道的频率响应,帮助系统在不同子载波上进行频率选择性衰落的补偿
  • 时延域表示:用于分析信道的多径效应,尤其适合处理时延扩展较大的环境,如城市建筑物反射、室内场景中的多径传播等。

数据预处理的作用与意义

  • 频域到时延域的转换:通过频域数据和时延域数据的相互转换,模型可以提取出信道的频率和时延特性,从而更好地理解信道的复杂变化。
  • 实数张量表示与归一化:通过将复数数据转换为实数张量并进行归一化处理,可以提高模型的训练效率和预测准确性,确保数据的数值尺度一致。
  • 频域和时延域的结合使用:两者结合使用,能够帮助系统在不同维度上全面分析信道特性,提高信道预测任务的精度和可靠性。

嵌入模块

  • CSI注意力机制:在处理后的CSI数据上应用卷积操作(CNN),提取局部时频特征。通过Squeeze-and-Excitation(SE)模块进一步调整通道权重。
    • 卷积层:用于提取输入特征中的局部时空特征。
    • SE模块
      • 压缩(Squeeze):通过全局池化,汇总通道的全局信息。
      • 激发(Excitation):自适应调整通道权重,突出重要通道。
  • 位置嵌入(Positional Embedding):为输入的CSI数据添加时序信息,帮助大语言模型理解CSI数据的时间顺序。
    • 位置嵌入公式:

SE模块概述

  • 全称:Squeeze-and-Excitation模块
  • 目标:通过自适应调整每个通道(路径)的权重,提升信道预测模型对关键特征的关注。
  • 主要机制
    • Squeeze:通过全局池化,获取每个通道的全局信息。
    • Excitation:通过全连接层和激活函数,为每个通道分配自适应权重。

SE模块的基本结构

  • 输入:信道状态信息的特征图
  • Squeeze阶段:使用全局平均池化将每个通道的空间特征汇总为一个标量,表示该通道在整个输入中的重要性。
    • 公式
      • :表示通道上的特征值,分别是特征图的高度和宽度。
  • Excitation阶段:通过两层全连接网络进行自适应权重调整。
    • 公式
      • 是全连接层参数
      • 是降维比例(通常为16)
      • 是ReLU激活函数
      • 是Sigmoid激活函数。
  • 权重分配:通过Excitation阶段得到的权重 ,重新对每个通道进行加权:
    • 公式
      • 其中 是通道的权重
      • 是该通道的特征图。

SE模块的作用

  • 自适应通道权重:通过SE模块,模型可以自适应地确定每个通道的权重,突出对预测任务重要的通道,抑制无关的通道。
  • 输入信息增强:SE模块动态调整特征图中的信息分布,增强网络对重要信息的关注,尤其是在信道预测中能更好地处理多径传播效应。
  • 注意力机制:SE模块的设计类似于一种轻量级的注意力机制,根据输入信道的全局特征动态调整每个通道的响应。

Squeeze阶段

  1. 全局平均池化
      • 将每个通道的空间特征聚合为一个标量,表示该通道的全局信息。
      • 作用:通过这种方式,SE模块能够获得信道的整体信息,从而为Excitation阶段提供基础。
  1. 公式
      • 是通道 的全局描述符。
      • 在信道预测中,这个描述符可以看作是各条传播路径的整体贡献。

Excitation阶段

  1. 权重调整
      • 通过两层全连接网络对通道的全局描述符进行处理,生成每个通道的权重。
      • 降维和升维:通过一个瓶颈结构(降维-升维),减少计算复杂度。
  1. 公式
      • 第一层全连接层将通道数从 降到,然后通过ReLU激活函数,再升维回到
      • 通过Sigmoid函数限制输出在0到1之间,表示每个通道的激活强度。
  1. 自适应权重分配
      • 每个通道的权重反映了其对任务的贡献大小,从而动态调整各个通道的重要性。

SE模块在CSI预测中的优势

  1. 突出重要的传播路径:通过自适应的权重调整,SE模块能够帮助模型区分出不同路径(通道)对信道预测的重要性,增强有效路径的信息,抑制无效路径的噪声。
  1. 提升预测精度:在多径传播环境下,SE模块能够提高模型对时空特征的提取能力,从而提升信道预测的精度。
  1. 轻量化设计:虽然增加了少量的计算开销,但SE模块显著提升了模型的表现,尤其适合高维度的信道状态信息。


主干网络——GPT-2

  • 主干网络:使用GPT-2模型作为信道预测的主干网络,处理时序特征。
    • 冻结部分参数:大部分的GPT-2层被冻结,仅微调少数层(如层归一化和位置嵌入层),以适应信道预测任务。
    • 时序建模:GPT-2擅长处理高维时间序列数据,能够很好地捕捉CSI数据中的时变特性。

输出模块

  • 全连接层:将GPT-2的输出转化为下一时刻的CSI预测。
    • 输出层公式
      • 两层全连接层将LLM的输出转换为CSI预测值。
  • 反归一化:将预测值恢复到原始尺度:
    • 是恢复尺度后的预测CSI,是之前的归一化参数。

总结

  • LLM4CP通过将大语言模型(如GPT-2)与CSI预测任务相结合,能够更好地处理高维的信道数据。
  • 该模型通过CSI注意力机制位置嵌入提取关键特征,并利用GPT-2捕捉数据中的时变性,最终实现高精度的信道预测。
  • 优势
    • 提高了信道预测的准确性。
    • 能够处理复杂的时空相关性问题。
    • 模型具有良好的泛化能力。

 
上一篇
论文精读:《Generative AI for the Optimization of Next-Generation Wireless Networks: Basics, State-of the-Art, and Open Challenges》生成式 AI 在下一代无限网络中的应
下一篇
RMDA 技术简介

评论
Loading...