スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。データは一日中アプリケーションから継続的に到着し、年末までに 1 日あたり約 150 GB の JSON データを生成することが予想されます。要件は次のとおりです。
生産者と消費者の分離
取り込まれた生のデータを無期限に保存するための、スペースとコスト効率に優れたストレージ ほぼリアルタイムの SQL クエリ SQ でクエリされる少なくとも 2 年間の履歴データを保持する これらの要件を満たすには、どのパイプラインを使用する必要がありますか?
A. API を提供するアプリケーションを作成します。API をポーリングし、データを gzip 圧縮された JSON ファイルとして Cloud Storage に書き込むツールを作成します。
B. Cloud Pub/Sub にイベントを公開するアプリケーションを作成し、Cloud Dataproc で Spark ジョブを作成して JSON データを Avro 形式に変換し、永続ディスクの HDFS に保存します。
C. Cloud SQL データベースに書き込んでデータを保存するアプリケーションを作成します。データベースの定期的なエクスポートを設定して、Cloud Storage に書き込み、BigQuery に読み込みます。
D. Cloud Pub/Sub にイベントを公開するアプリケーションを作成し、JSON イベント ペイロードを Avro に変換してデータを Cloud Storage と BigQuery に書き込む Cloud Dataflow パイプラインを作成します。
正解:A
質問 2:
あなたは広告会社に勤めており、広告ブロックのクリックスルー率を予測する Spark ML モデルを開発しました。これまではすべてオンプレミスのデータセンターで開発してきましたが、現在、会社は Google Cloud に移行しています。データセンターは BigQuery に移行されます。Spark ML モデルを定期的に再トレーニングするため、既存のトレーニング パイプラインを Google Cloud に移行する必要があります。どうすればよいでしょうか。
A. TensorFlow でモデルを書き直し、Cloud ML Engine を使い始めましょう
B. 既存の Spark ML モデルのトレーニングに Cloud ML Engine を使用する
C. 既存の Spark ML モデルのトレーニングには Cloud Dataproc を使用しますが、BigQuery から直接データを読み取り始めます。
D. Compute Engine で Spark クラスタを起動し、BigQuery からエクスポートされたデータで Spark ML モデルをトレーニングします。
正解:C
解説: (Pass4Test メンバーにのみ表示されます)
質問 3:
ニューラル ネットワークがトレーニング データセットから学習するときに調整される数値はどれですか (回答を 2 つ選択してください)。
A. 偏見
B. 入力値
C. 重み
D. 連続した特徴
正解:A,C
解説: (Pass4Test メンバーにのみ表示されます)
質問 4:
Cloud Storage にデータを書き込むアップストリーム プロセスがあります。このデータは、Dataproc で実行される Apache Spark ジョブによって読み取られます。これらのジョブは us-central1 リージョンで実行されますが、データは米国内のどこにでも保存できます。単一のリージョンで壊滅的な障害が発生した場合に備えて、復旧プロセスを用意しておく必要があります。データ損失が最大 15 分 (RPO = 15 分) のアプローチが必要です。データを読み取る際のレイテンシが最小限になるようにする必要があります。どうすればよいでしょうか。
A. 1. 米国のマルチリージョンに Cloud Storage バケットを作成します。
2. ua-central1 リージョンのゾーンで Dataproc クラスタを実行し、米国のマルチリージョン バケットからデータを読み取ります。
3. リージョン障害が発生した場合は、Dataproc クラスタを us-central2 リージョンに再デプロイし、同じバケットからの読み取りを続行します。
B. 1. us-central1 リージョンと us-south1 リージョンにデュアルリージョン Cloud Storage バケットを作成します。
2. ターボレプリケーションを有効にします。
3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、同じリージョンのバケットから読み取ります。
4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、同じバケットから読み取ります。
C. 1. us-central1 リージョンと us-south1 リージョンにデュアルリージョン Cloud Storage バケットを作成します。
2. ターボレプリケーションを有効にします。
3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、us-south1 リージョンのバケットから読み取ります。
4. リージョン障害が発生した場合は、Dataproc バケットを us-south1 リージョンに再デプロイし、同じバケットから読み取りを続行します。
D. 1. us-central1 リージョンに 1 つ、us-south1 リージョンに 1 つ、合計 2 つのリージョン Cloud Storage バケットを作成します。
2. アップストリーム プロセスで us-central1 バケットにデータを書き込むようにします。Storage Transfer Service を使用して、us-central1 バケットから us-south1 バケットにデータを 1 時間ごとにコピーします。
3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、そのリージョンのバケットから読み取ります。
4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、代わりにそのリージョンのバケットから読み取ります。
正解:B
解説: (Pass4Test メンバーにのみ表示されます)
質問 5:
あなたの会社にはハイブリッド クラウド イニシアチブがあります。クラウド プロバイダー サービス間でデータを移動し、各クラウド プロバイダーのサービスを活用する複雑なデータ パイプラインがあります。パイプライン全体をオーケストレーションするには、どのクラウド ネイティブ サービスを使用すればよいでしょうか。
A. クラウド データプロシージャ
B. クラウドデータフロー
C. クラウド コンポーザー
D. クラウドデータ準備
正解:A
質問 6:
あなたは世界的な海運会社で働いています。40 TB のデータでモデルをトレーニングし、特定の日に各地理的地域でどの船舶が配送遅延を引き起こす可能性があるかを予測したいと考えています。モデルは、複数のソースから収集された複数の属性に基づきます。GeoJSON 形式の位置情報を含むテレメトリ データは各船舶から取得され、1 時間ごとに読み込まれます。地域内で遅延を引き起こす可能性のある船舶の数と船舶の種類を示すダッシュボードが必要です。予測と地理空間処理のネイティブ機能を備えたストレージ ソリューションを使用する必要があります。どのストレージ ソリューションを使用すればよいでしょうか。
A. クラウド データストア
B. クラウド ビッグテーブル
C. PostgreSQL 用 Cloud SQL
D. ビッグクエリ
正解:D
質問 7:
会社では、履歴データを Cloud Storage にアップロードする必要があります。セキュリティ ルールにより、外部 IP からオンプレミス リソースへのアクセスは許可されません。最初のアップロード後、既存のオンプレミス アプリケーションから毎日新しいデータが追加されます。どうすればよいでしょうか。
A. オンプレミス サーバーから gsutil rsync を実行します。
B. データ転送を実行するためのジョブ テンプレートを Cloud Dataproc に記述します。
C. Cloud Dataflow を使用して、データを Cloud Storage に書き込みます。
D. Compute Engine VM に FTP サーバーをインストールして、ファイルを受信して Cloud Storage に移動します。
正解:C
質問 8:
Dataflow はバッチ データ パイプラインまたはストリーミング データ パイプラインを処理しますか?
A. ストリーミングデータパイプラインのみ
B. バッチデータパイプラインとストリーミングデータパイプラインの両方
C. 上記のいずれでもない
D. バッチデータパイプラインのみ
正解:B
解説: (Pass4Test メンバーにのみ表示されます)
質問 9:
あなたの会社は最近急速に成長し、以前よりも大幅に高い速度でデータを取り込んでいます。あなたは Apache Hadoop で毎日のバッチ MapReduce 分析ジョブを管理しています。しかし、最近のデータの増加により、バッチ ジョブが遅れています。開発チームがコストを増やさずに分析の応答性を向上させる方法を提案するように求められました。あなたは開発チームに何を提案すべきでしょうか?
A. Hadoop クラスターのサイズを縮小しますが、Hive のジョブも書き換えます。
B. Hadoop クラスターのサイズを増やします。
C. Pig でジョブを書き換えます。
D. Apache Spark でジョブを書き換えます。
正解:C
Watabe -
迅速に送付いただき有難うございました。
中身も試験を対応できてとてもよかったです。
無事に試験に合格することができました。