時系列データの予測：LSTMとTransformerの性能比較

Contents

はじめに
時系列予測の基礎
LSTMとTransformerの理論
- LSTM（Long Short-Term Memory）
- Transformer
実装と比較
実験結果
実務での応用
まとめ

はじめに

本記事では、時系列データ予測における深層学習モデルの代表格であるLSTM (Long Short-Term Memory) とTransformerを比較します。これらのモデルは、ビジネスにおける様々な課題、例えば売上予測、需要予測、異常検知などに広く利用されています。本記事では、PyTorchを用いて両モデルを実装し、その性能を比較することで、それぞれのモデルの特徴と実務での使い分けについて解説します。

この記事を書いたひと

Digital Reactor LLC
望月優輝 / Yuki Mochizuki

機械学習・統計、数値計算などの領域を軸としたソフトウェアエンジニアリングを専門としています。スタートアップからグローバル企業まで、さまざまなスケールの企業にて、事業価値に直結する計算システムを設計・構築してきました。主に機械学習の応用分野において、出版・発表、特許取得等の実績があり、また、IT戦略やデータベース技術等の情報処理に関する専門領域の国家資格を複数保有しています。九州大学理学部卒業。日本ITストラテジスト協会正会員。

対象読者:

深層学習を用いた時系列データ分析に興味がある方
LSTMとTransformerの実装方法と性能差を知りたい方
実務で時系列予測モデルの選定に悩んでいる方

記事のポイント:

LSTMとTransformerの理論的な違いを、数式を交えて解説
PyTorchによる具体的な実装例を提示
人工データを用いた実験による、予測精度と計算時間の比較
実務での応用例とモデル選択の指針を提示

時系列予測の基礎

時系列データ予測は、過去のデータのパターンから未来の値を予測するタスクです。従来の統計モデル（ARIMAなど）と比較して、深層学習モデルは以下の利点があります。

非線形な関係性をモデル化できる
長期的な依存関係を捉えられる
複数の特徴量を同時に扱える

LSTMとTransformerの理論

LSTM（Long Short-Term Memory）

LSTMは、RNN (Recurrent Neural Network) の一種であり、時系列データの処理に特化した構造を持っています。RNNは、過去の情報を内部状態として保持することで系列データを扱えます。

LSTMは、従来のRNNが抱える勾配消失問題を解決し、長期的な依存関係を学習するために、以下の要素を備えています。

セル状態: 長期記憶を保持する
ゲート機構: 情報の流れを制御する
- 入力ゲート: 新しい情報をセル状態に追加するかどうかを制御
- 忘却ゲート: セル状態から不要な情報を削除するかどうかを制御
- 出力ゲート: セル状態からどの情報を出力するかを制御

これらの機構により、LSTMは時系列データの長期的なパターンを効果的に学習できます。

Transformer

Transformerは、2017年にGoogleの研究者らによって提案されたモデルで、自然言語処理の分野で大きな成功を収めました。近年では、時系列データ分析への応用も進んでいます。Transformerは、RNNとは異なり、以下の特徴を持ちます。

自己注意機構 (Self-Attention): 系列内の任意の位置にある要素間の関係性を直接的に捉える
並列処理: RNNのように逐次的に処理する必要がないため、高速な計算が可能

自己注意機構は、以下の式で表されます。

 $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

ここで、

Q (Query): 情報を取得するためのクエリ
K (Key): クエリと照合するためのキー
V (Value): 実際に取得する値
d_k: キーの次元数 (スケーリング係数)

この機構により、Transformerは系列内の重要な要素に注目し、長期的な依存関係を効率的に学習します。

さらに、Transformerは位置エンコーディングを用いて、系列内の要素の位置情報をモデルに組み込みます。

実装と比較

PythonとPyTorchを用いて、LSTMとTransformerを実装し、人工データを用いて性能を比較します。

データの生成

複数の周期を持つ正弦波にノイズを加えた人工データを生成します。

def generate_data(n_samples=1000):
    t = np.linspace(0, 100, n_samples)
    # 複数の周期の正弦波を組み合わせる
    y = (np.sin(0.02 * t) + 0.5 * np.sin(0.05 * t) + 
         0.3 * np.sin(0.2 * t) + np.random.normal(0, 0.01, n_samples))
    return t, y

この関数は、周期の異なる3つの正弦波を合成し、さらにガウシアンノイズを加えることで、現実に近い時系列データを作成します。

データセットの準備

PyTorchのDatasetクラスを継承し、時系列データ用のカスタムデータセットを作成します。

class TimeSeriesDataset(Dataset):
    def __init__(self, data, seq_length, target_length):
        self.data = torch.FloatTensor(data)
        self.seq_length = seq_length
        self.target_length = target_length

    def __len__(self):
        return len(self.data) - self.seq_length - self.target_length + 1

    def __getitem__(self, idx):
        x = self.data[idx:idx + self.seq_length]
        y = self.data[idx + self.seq_length:
                     idx + self.seq_length + self.target_length]
        return x, y

このクラスは、入力系列長(seq_length)と予測対象の長さ(target_length)を指定して、時系列データを学習用のミニバッチに分割します。

モデルの実装

LSTMモデル

class LSTMPredictor(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super().__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, 
                           batch_first=True)
        self.linear = nn.Linear(hidden_size, output_size)

    def forward__(self, x):
        lstm_out, _ = self.lstm(x)
        predictions = self.linear(lstm_out[:, -1, :])
        return predictions

LSTMモデルは、入力系列を受け取り、LSTM層で隠れ状態を更新しながら時系列パターンを学習します。batch_first=Trueは、入力データの形状を(バッチサイズ, 系列長, 特徴量数)とするための指定です。最後の時点の隠れ状態を線形層に通して、将来の値を予測します。

Transformerモデル

class TransformerPredictor(nn.Module):
    def __init__(self, input_size, d_model, nhead, num_layers, output_size):
        super().__init__()
        self.embedding = nn.Linear(input_size, d_model)
        encoder_layer = nn.TransformerEncoderLayer(d_model, nhead, 
                                                 batch_first=True)
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers)
        self.linear = nn.Linear(d_model, output_size)

    def forward__(self, x):
        x = self.embedding(x)
        transformer_out = self.transformer(x)
        predictions = self.linear(transformer_out[:, -1, :])
        return predictions

Transformerモデルは、まず線形層で入力を高次元空間に埋め込みます。その後、TransformerEncoderで自己注意機構を用いて系列内の関係性を学習します。d_modelは埋め込み次元、nheadは注意機構のヘッド数、num_layersはエンコーダ層の数です。LSTMと同様に、最後の時点の出力を線形層に通して予測を行います。

実験結果

実験では、以下の設定でモデルを学習・評価しました。

入力系列長: 200
予測長: 50
隠れ層のサイズ (LSTM): 64
埋め込み次元 (Transformer): 64
注意ヘッド数 (Transformer): 4
層の数 (LSTM, Transformer): 2
最適化アルゴリズム: Adam
学習率: 0.001
エポック数: 50

実験結果は以下の通りです。

モデル	訓練損失	テストデータMSE	計算時間 (秒)
LSTM	0.0009	0.0011	90.47
Transformer	0.0022	0.0006	337.73

考察:

予測精度: TransformerはLSTMよりも低いテストMSEを達成し、より正確な予測を行いました。これは、Transformerの自己注意機構が、LSTMよりも効果的に長期的な依存関係を捉えられたためと考えられます。ただし、異なるデータセットにおいてはこの傾向が逆転することもありえます。あくまで今回のデータセットにおける結果であることには注意してください。
計算時間: TransformerはLSTMよりも計算時間が長くかかりました。これは、自己注意機構の計算量が系列長に対して二乗で増加するためです。

実務での応用

LSTMとTransformerは、様々な時系列予測タスクに応用できます。

需要予測: 小売業における商品需要の予測
異常検知: 製造ラインにおけるセンサーデータの異常検知
金融市場予測: 株価や為替レートの予測
エネルギー消費予測: 電力需要の予測

モデル選択の際は、以下の点を考慮すると良いでしょう。

考慮事項	LSTM	Transformer
系列の長さ	比較的短い系列に適している	長い系列に適している
計算リソース	比較的少ない計算リソースで学習可能	大量の計算リソースを必要とする場合がある
リアルタイム性	比較的低い計算コストで、リアルタイム処理に向いている	計算コストが高く、リアルタイム処理には工夫が必要な場合がある
データの複雑さ	比較的単純なパターンを学習するのに適している	複雑なパターンや長期的な依存関係を学習するのに適している

まとめ

本記事では、時系列予測におけるLSTMとTransformerの実装と性能比較を行いました。実験の結果、今回のデータセットにおいては、TransformerはLSTMよりも高い予測精度を示しましたが、計算コストも高いことが確認されました。実務においては、タスクの特性や利用可能な計算リソースに応じて、適切なモデルを選択することが重要です。

今後は、より大規模なデータセットを用いた実験や、他の時系列モデルとの比較、さらに実データへの応用などを検討していきたいと考えています。