ニュース
dotData、特徴量抽出をアセット化しのデータソリューションを強化する「dotData Feature Factory」を発表
2023年5月9日 13:09
米dotDataは9日、企業のAI・機械学習プロジェクトにおいて重要となる特徴量の発見・抽出を自動化する「dotData Feature Factory」をリリースした。
dotData Feature Factoryは、既存製品であるdotData Pyの後継製品として提供される。この新たなリリースにより、データサイエンティストは特徴量抽出にデータ中心のアプローチを適用し、データ加工から特徴量抽出のプロセスを再利用可能なアセットとして蓄積できる。
dotDataでは、特徴量の発見は業務とデータの深い知識が必要となり、非常に時間と工数のかかる工程になると説明。dotData Feature Factoryは、関係データ、トランザクションデータ、時間データを含む企業の業務データから自動的に特徴量空間(特徴量の候補)を生成し、ユーザーは特徴量発見の第一歩を踏み出し、分析の初日からビジネスに役立つパターンをデータから発見できるとしている。
従来、経験と勘による手作業が中心となっていた特徴量の発見と設計を、データ中心のアプローチへと発展させ、特徴量空間をプログラム的に定義することで、手作業では不可能な圧倒的に広い範囲の特徴量仮説を自動生成し、ユーザーのデータや業務に関する知識をデータから補完する。
特徴量設計は、簡単なSQLクエリを書くだけではなく、ETLやデータクレンジング、特徴量変換など、複雑なデータ操作と変換を、繰り返し作業によって導き出すプロセスとなる。発見した特徴量はデータマートや特徴量ストアに蓄積できる一方、特徴量設計のプロセスはほとんどのケースで蓄積、管理されずに捨てられてしまっていたが、dotData Feature Factoryは特徴量設計のステップを蓄積し、データサイエンティストが自分自身やチームのために、データ変換や特徴量抽出のノウハウを再利用可能なアセット化できる。
また、データサイエンティストは、一般的に、特徴量探索をPythonなどのNotebook上で行うが、これらの大量のNotebookとコードは、標準化され、管理されておらず、本番環境で求められるエッジケースのカバレッジ、保守性、拡張性などを満たさないことがほとんどだと説明。dotData Feature Factoryは、生成した特徴量を、本番環境のためのパイプラインとして自動的に生成するため、実験環境から本番環境への移行が迅速かつ簡単になるとしている。
dotData Feature Factoryは、データや業務に関する「ノウハウ」を再利用可能なアセットへと変換し蓄積することで、企業の全てのデータアプリケーションを強化する。データ中心かつ体系化された特徴量抽出によってビジネスに重要な情報を発見し整理することで、チーム間連携の強化、データアプリケーション開発効率の向上、モデル品質の向上、特徴量とデータの再利用性、再現性、拡張性、透明性の向上を実現すると説明。また、データサイロを取り除くことで、企業は保有するすべてのデータを最大限に活用し、データアプリケーションに変革をもたらすとしている。