データ接続

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

データ接続

最新の情報は、製品マニュアルをご確認ください。閲覧するには、DataRobotにログインする必要があります。

(この記事の最終更新日:2020年4月7日)

 Managed AI Cloudユーザー: この機能はデフォルトで無効化されています。機能を有効にするには、CFDSまたはDataRobotサポートに連絡してください。 

さまざまなエンタープライズデータベースとの統合を有効にするために、DataRobotでは、データベース接続をセットアップするための「セルフサービス」JDBCプラットフォームが提供されています。設定した後は、運用データベースからデータを読み取ってモデル構築と予測に使用することができます。この機能を使用すると、そのデータでモデルをすばやくトレーニングおよび再トレーニングすることができ、エンタープライズデータベースからCSVファイルにデータをエクスポートしてDataRobotに取込むという不要な手順を回避できます。これまでよりも多様なデータにアクセスできるので、より正確なモデルを構築することができるようになります。

DataRobotのJDBCデータベース接続ソリューションはプラットフォームに依存しない標準化されたソリューションなので、複雑なインストールや設定は必要ありません。技術的スキルと権限を持つユーザーはデータベース接続を確立できます。その他のエンタープライズユーザーは、これらの接続を活用してビジネスの問題を解決することができます。

JDBCドライバーを追加、更新、または削除できるのは管理者だけです。

このセクションでは、データ接続の追加、変更、および削除に加えて、これらのリソースの共有について説明します。必要な権限およびデータセキュリティの詳細については、役割、権限、および認証のセクションを参照してください。

サポートされるデータベース

DataRobot with JDBC 4.1は以下のデータベースのサポートに対してテストされています。

データベースバージョンドライバーJar
Hive*1.1.0Hive 1.1.0
KDB**3.6kdb+用JDBCクライアント
Microsoft SQL Server 6.46.4 JDBC 4.1mssql-jdbc-6.4.0.jre9.jar (Java 1.9)
MySQL5.1.24mysql-connector-java-5.1.24-bin.jar
Oracleoracle-xe\_11.2.0-1.0ojdbc6.jar
Postgres9.4.1208 JDBC 4postgresql-9.4.1208.jre6.jar
Redshift1.2.10.1009 JDBC 4.1RedshiftJDBC41-no-awssdk-1.2.10.1009.jar
Snowflake3.5.4snowflake-jdbc-3.5.4.jar

Treasure Data: 契約しているクエリーエンジンを選択します。

Presto0.216presto-jdbc-0.216.jar
TD-Hive0.5.10td-jdbc-0.5.10.jar

* 現在、HiveはKerberos認証をサポートしていません。

** JDBCでのみサポートされています。KDBネイティブクエリー言語ではサポートされません。

設定後、データソースは、取込み(開始画面から)と予測(予測を作成タブから)の両方に使用できます。

データベース接続のワークフロー

デフォルトでは、ユーザーは、データソースおよびデータ接続の作成、変更(ユーザーの役割に基づきます)、および共有を行うことができます(このセクションで使用されている用語の定義については、以下を参照してください)。

DataRobotのデータベース接続ワークフロー(以下を参照)には、2つの基本的なコンポーネントがあります。最初に、管理者がJDBCドライバーをアップロードし、そのドライバーのデータベース接続を設定します。その後、以下に示すように、ユーザーが、プロジェクトの作成と予測に使用するデータをDataRobotにインポートします。

  1. データ接続ページで、データ接続設定を作成します。
  2. 同じデータ接続ページで、モデリングと予測に使用するデータソースを(データ接続から)作成します。
  3. (オプション)ユーザーの役割によっては、データ接続およびデータソースを他のユーザーと共有することができます。

データソースの作成ダイアログは別の方法で開くこともできますが、この手順ではすべての場合に使用されるプロセスについて説明します。

新しいデータ接続の作成

管理者によって無効にされている場合を除き、各ユーザーにはデータ接続を作成する権限があります。接続にアクセスできるのは、他のユーザーと共有している場合を除き、その接続を作成したユーザーだけです。

新しいデータ接続を作成するには:

  1. 「アカウント設定」ドロップダウンからデータ接続を選択します。
    takeshiendo_0-1586232419138.png

     

  2. 新しいデータ接続を追加をクリックして設定ダイアログボックスを開きます。
    takeshiendo_1-1586232419081.png

     

  3. フィールドを完了します。フィールド 説明
    フィールド説明
    データ接続名接続の一意の名前を入力します。
    ドライバードロップダウンリストからドライバーを選択します(ドライバーはシステム管理者によって追加されています)。
    設定 パラメーター接続のパラメーターを変更します。
    設定 URLこのデータストアが接続するデータベースのURLをjdbc:mysql://<HOST>:<PORT>/<DATABASE_NAME>の形式で入力します。接続で必要な場合はURLにパラメーターを含めることができます。
  4. データ接続を追加をクリックして設定を保存します。

新しい接続が左側のデータ接続リストに表示されます。

パラメーターを含むデータ接続

データ接続設定画面に表示されるパラメーターは、選択したドライバーに応じて異なります。使用可能なパラメーターはドライバーを追加した管理者が行った設定に応じて異なります。

takeshiendo_2-1586232419084.png

 

その他の多くのフィールドは、検索可能な拡張フィールドにあります。目的のフィールドが表示されない場合は、パラメーターを追加するをクリックしてフィールドを含めます。

takeshiendo_3-1586232419131.png

 

接続設定に表示されるパラメーターを削除するには、ごみ箱アイコンをクリックします。

データ接続のテスト

データ接続を作成した後、右上の接続をテストボタンをクリックして接続をテストします。

takeshiendo_4-1586232419108.png

 

表示されるダイアログボックスで、データ接続作成画面のJDBC URLフィールドまたはパラメーターベースの設定に表示されているデータベースの資格情報を入力するか、保存されている資格情報を使用します。サインインをクリックします。テストが正常に完了したら、閉じるをクリックしてデータ接続ページに戻り、データソースを作成します。

データ接続の変更

既存のデータソースの名前、JDBC URL、および(ドライバーがパラメーターで設定されている場合)パラメーターを変更できます。

  1. 左側のデータ接続リストでデータ接続を選択します。
  2. 更新されたメインウィンドウで、編集する要素のボックスをクリックして新しいテキストを入力します。
  3. 変更を保存をクリックします。

データ接続の削除

既存のデータソースで使用されていないデータ接続を削除できます。使用されている場合は、依存ファイルを最初に削除する必要があります。データ接続を削除するには:

  1. データ接続タブから、左側の接続リストからデータ接続を選択します。
  2. 右上にある削除ボタンをクリックします。
  3. 確認を求めるメッセージが表示されます。削除をクリックしてデータ接続を削除します。そのデータ接続に依存するデータソースがある場合は、通知が表示されます。
    takeshiendo_5-1586232419120.png

     

  4. 依存ソースを削除するには、接続のデータソースタブをクリックし、各ソースの削除をクリックします。確認メッセージが表示されたら該当するボタンをクリックして操作を確認します。
    takeshiendo_6-1586232419118.png

     

  5. すべての依存データソースを削除した後、データ接続を削除します。

データソースの操作

データソースは、SQLクエリーまたは選択されたテーブルとスキーマデータを介して、データ接続から取得するデータを指定します。このデータはモデリングおよび予測に使用するために抽出されるデータです。データベーステーブル全体をポイントするか、SQLクエリーを使用してデータベースから特定のデータを選択することができます。作成したデータソースは、それを作成したユーザーだけが使用できます。

データソースの追加

データソースを追加するには以下の操作を実行します。

  1. 接続のリストから、作成するデータソースに使用するデータ接続を選択します。
  2. 接続プロファイルで、データソースデータソースの新規作成をクリックします。
    takeshiendo_7-1586232419137.png

     

  3. ダイアログが表示されたら、データ接続設定が示すデータベースにアクセスするために使用する資格情報を入力するか、保存されている資格情報を使用します。
  4. 表示されるダイアログボックスのフィールドに入力します。
    フィールド説明
    既存のテーブルタブ前のページで選択したスキーマに属する使用可能なテーブルのリストを提供します。
    SQLクエリータブSQLクエリーを指定するテキストフィールドを提供します。
    スキーマを選択クリックしてデータベースで使用可能なすべてのスキーマのリストを生成します。下向きの矢印をクリックしてリストを表示します。目的のスキーマまでスクロールするか、検索条件を入力します。リセットするには、アイコン(
     

     

    )をクリックします。
    テーブルを選択ドロップダウンから、選択したスキーマのテーブルを選択します。(スキーマが選択されている場合にのみ使用可能です。)
    フェッチサイズデータベースからDataRobotで取得する行数(1~20,000)を選択します。デフォルト(推奨値)のフェッチサイズは4096行です。値を低くするとメモリ不足(OOM)エラーが発生します。フェッチサイズを大きくすると高速で実行できますが、多くのメモリを消費します。
    名前データソース設定の名前を入力します。
  5. 設定が完了したら、データソースを追加をクリックします。

「既存のテーブル」タブ

デフォルトでは、アクティブなデータ接続のテーブルがデータソースとして使用されます。ストア内のテーブルを選択するには、下向きの矢印をクリックしてリストを表示します。目的のスキーマまでスクロールするか、検索条件を入力します。

SQLクエリータブ

SQLクエリーを使用して、名前付きデータベースの特定の要素を選択し、データソースとして使用できます。DataRobotのWebベースのコードエディタで使用するクエリーをSQLクエリーボックスに入力します。SQL構文がハイライトされます。入力の形式を検証するには、入力ボックスの下のSQLクエリーを検定ボックスが選択されていることを確認します。クエリーを作成したら、データソースの名前を入力してデータソースを追加をクリックします。

takeshiendo_8-1586232420614.png

 

検証が成功すると、新しいデータソースおよびその詳細が右側のサマリーペインに一覧表示されます。検証に失敗すると、以下のメッセージが返されます。

takeshiendo_9-1586232419083.png

 

DataRobotのSQLクエリーオプションでは、SELECTベースのクエリだけがサポートされます。また、SQLの検証はプロジェクトを作成するときにのみ実行されます。検証は、サマリーペインのクエリーを編集するときには再実行されません。

データソースの変更

既存のデータソースの名前とSQLクエリーを変更できます。変更するには:

  1. データ接続 > データソースタブで、編集するデータソースを選択します。
  2. 設定済みのフィールドを表示するには、表示内容を増やすをクリックします。更新されたメインウィンドウで、編集する要素のボックスをクリックします。
  3. 表示されるテキストボックスに新しいテキストを入力します。
  4. チェックマークをクリックして変更内容を保存します。キャンセルする場合は、Xをクリックします。

データソースの削除

データソースを削除するには、データ接続 > データソースタブを展開して、すべてのデータソースのリストを表示します。目的のデータソースの横にある削除をクリックして、データソースを削除します。確認のメッセージが表示されたら、削除操作を確認するか、キャンセルします。

データ接続およびデータソースの共有

データソースやデータ接続を作成するユーザーが、使用するユーザーと同じではない場合や、それらを使用する唯一のユーザーではない場合があります。そのような場合のために、DataRobotでは組織内でデータおよび設定を共有することができます。各エンティティにユーザーレベルの権限を設定することによって、以下のようなシナリオを実現できます。

  • データエンジニアが新しいデータソースを作成し、アナリストとデータサイエンティストとデータを共有する場合を考えてみます。アナリストとデータサイエンティストは、このデータソースを使用して会社のデータベースに格納されている実測値とDataRobotのモデルスコアを比較して、時間経過に伴うモデルの正常性と精度を測定します。
  • 選択したデータエンティティのアクセス権を設定して、さまざまなユーザーにコンシューマーレベル、エディタレベル、または所有者レベルのアクセスを付与することもできます。また、特定のユーザーのアクセスを削除することも可能です。
  • アクセスが付与された他のユーザーとデータソースを共有している場合、使用可能なエンティティのリストの下に共有エンティティを表示できます。

データ接続とデータソースの両方の共有インターフェイスは同じです。共有する方法:

  1. 共有ダイアログを開きます。
    • データ接続: データ接続 > 接続設定を選択して、共有ボタンをクリックします。
    • データソース: データ接続 > データソースを選択して、共有リンクをクリックします。

takeshiendo_10-1586232419087.png

 

  1. 追加するコラボレータのEメールアドレスを入力して、役割を選択します。ボックスをクリックして共有権限を付与します。
  2. 共有をクリックしてユーザーを追加します。
  3. 必要な数のコラボレータを追加した後、閉じるをクリックして共有ダイアログボックスを閉じます。

権限によっては、追加されたユーザーを削除することやアクセスを変更することができます。詳細については、役割と権限の表を参照してください。

各エンティティには、少なくとも1つの所有者が必要です。自分が唯一のコラボレーション所有者である場合、自分を削除することや自分の共有権限を削除することはできません。

詳しい情報…

このセクションでは、以下の内容について説明します。

データベース接続の要素

データベース接続のセットアップ方法を説明する手順では、以下の用語を使用します。

  • データ接続: データベースへの設定済みの接続(名前および指定されたドライバーが含まれます)。JDBC URLまたは接続パラメーター(ドライバーがパラメーター設定で作成された場合)を指定して接続を追加します。DataRobotにデータ接続を登録すると容易に再使用することができます。1つのデータ接続には1つのコネクタがありますが、複数のデータソースを設定することができます。
  • データソース: バックエンドのデータ接続(指定したエンドポイント内のデータの場所)への設定済み接続。データソースは、SQLクエリまたは選択されたテーブルおよびスキーマデータを使用して、モデリングまたは予測に使用するデータ接続から抽出するデータを指定します。1つのデータソースには1つのデータ接続と1つのコネクタがありますが、複数のデータセットを設定することができます。
  • ドライバー: DataRobotアプリケーションがデータベースと通信することを可能にするソフトウェア。各データ接続は(管理者が作成およびインストールした)1つのドライバーに関連付けられます。ドライバの設定には、DataRobot内でJARファイルおよびそのドライバーに関連付けられているその他の依存ファイルのストレージ場所が保存されます。
  • データセット: 特定の時点におけるデータ(1つのファイルまたは1つのデータソースのコンテンツ)。データソースは複数のデータセットを生成することができます。1つのデータセットには1つのデータソースが設定されます。たとえば、HDFS上のファイルへのパス、S3に保存されているオブジェクト、およびデータベース内のテーブルとスキーマなどを指定できます。
バージョン履歴
最終更新:
‎04-08-2020 07:23 PM
更新者:
寄稿者: