ニュース

dotData、AIによる特徴量設計の強化やLLM対応を拡充した「dotData Feature Factory 1.3」を発表

 米dotDataは17日、特徴量自動発見・抽出プラットフォーム「dotData Feature Factory 1.3」を発表した。

 dotData Feature Factory 1.3は、AIによる特徴量発見の強化、テキスト特徴量への対応、さらにLLM(大規模言語モデル)のサポート強化などの新機能により、AI、データサイエンス、機械学習チームを強化し、企業における高度な分析やデータ利活用を加速するとしている。

 特徴量の強化では、ユーザーが持つ既存の特徴量を補完し、また予測の残差にフィットする新たな特徴量を段階的に発見できる機能を提供する。この新機能により、既存の特徴量や予測スコアといったアセットを最大限に活用し、冗長な特徴量の再発見を防ぎながら、より予測精度の高い特徴量を反復的に構築することを可能にする。

 LLMによる組み合わせ特徴量の発見では、LLMが複数のカラムの組み合わせ方を発見し、より予測精度の高い特徴量を生成できるようにする。従来の統計に基づいた組み合わせの発見は、疑似相関が発生したり、 解釈が困難な組み合わせが多数発生したりするという問題があるが、dotDataは生成AIを活用し、統計的な有意性に加え、ドメインの文脈やカラムの組み合わせの解釈性も考慮しながら、特徴量を抽出できる。

 テキストデータの特徴量自動設計では、NLP(自然言語処理)技術を活用し、売り上げレポート、顧客レビュー、コールセンターの通話記録、従業員インタビューなどの非構造化テキストから、自動的に特徴量を抽出する。さらに、抽出したテキスト特徴量を数値、カテゴリ、タイムスタンプデータと組み合わせることで、これまで埋もれていたインサイトを引き出し、より精度の高い分析を実現する。

 LLM対応の強化では、特徴量設計を強化するために、新たに2つのLLMフレームワークをサポートした。Amazon Bedrockは、Claude 3.5をはじめとする最新のLLMにアクセス可能。vLLMは、特定のドメイン向けにファインチューニングされた独自のLLMを活用できる。

 このほか、最新環境のサポートとして、Python 3.11(Python 3.8はサポート終了)、Databricks Runtime 14.3および15.4(Apache Spark 3.5.2対応)、Amazon EMR 7.5.0、Azure Snowpark Container Servicesに対応した。