あなたは、顧客が e コマース サイトで購入する可能性を予測する、新しいディープ チーミング モデルを開発しています。元のトレーニング データと新しいテスト データの両方に対してモデルの評価を実行すると、モデルがデータを過剰適合していることがわかります。新しいデータを予測する際のモデルの精度を向上させたいと考えています。あなたは何をするべきか?
A. トレーニング データセットのサイズを減らし、入力フィーチャの数を減らします。
B. トレーニング データセットのサイズを増やし、入力フィーチャの数を増やします。
C. トレーニング データセットのサイズを減らし、入力特徴の数を増やします。
D. トレーニング データセットのサイズを増やし、入力フィーチャの数を減らします。
正解:D
解説: (Pass4Test メンバーにのみ表示されます)
質問 2:
バッチ予測ではなくオンライン予測を使用することの特徴の2つは何ですか?
A. 予測は、指定したCloudStorageの場所にある出力ファイルに書き込まれます。
B. ジョブ内の大量のデータインスタンスを処理し、より複雑なモデルを実行するように最適化されています。
C. 予測が応答メッセージで返されます。
D. 予測を提供する待ち時間を最小限に抑えるように最適化されています。
正解:C,D
解説: (Pass4Test メンバーにのみ表示されます)
質問 3:
ニューラルネットワークを取得して、カテゴリ機能のカテゴリ間の関係について学習するにはどうすればよいですか?
A. 埋め込み列を作成します
B. ハッシュバケットを作成する
C. マルチホットカラムを作成する
D. ワンホットカラムを作成します
正解:A
解説: (Pass4Test メンバーにのみ表示されます)
質問 4:
次のうち、ハイパーパラメータの例はどれですか? (2つの答えを選択してください。)
A. 重み
B. 各隠れ層のノード数
C. バイアス
D. 隠れ層の数
正解:B,D
解説: (Pass4Test メンバーにのみ表示されます)
質問 5:
時系列メトリックを集約してCloudBigtableに書き込むCloudDataflowジョブを含むデータパイプラインがあります。このデータは、組織全体の何千人ものユーザーが使用するダッシュボードにフィードされます。追加の同時ユーザーをサポートし、データの書き込みに必要な時間を短縮する必要があります。あなたはどちらの2つの行動を取るべきですか? (2つ選択してください。)
A. Cloud Bigtableに書き込む前に、CoGroupByKeyトランスフォームを使用するようにCloudDataflowパイプラインを変更します
B. CloudBigtableクラスター内のノードの数を増やします
C. ローカル実行を使用するようにCloudDataflowパイプラインを構成します
D. Cloud Bigtableに書き込む前に、Flattenトランスフォームを使用するようにCloudDataflowパイプラインを変更します
E. PipelineOptionsでmaxNumWorkersを設定して、CloudDataflowワーカーの最大数を増やします
正解:B,E
質問 6:
あなたの会社は最初の動的キャンペーンを実行しており、ホリデーシーズン中にリアルタイムデータを分析することでさまざまなオファーを提供しています。データサイエンティストは、30日間のキャンペーン中に1時間ごとに急速に増加するテラバイトのデータを収集しています。彼らはGoogleCloud Dataflowを使用してデータを前処理し、Google Cloud Bigtableの機械学習モデルに必要な機能(シグナル)データを収集しています。チームは、10TBのデータの初期ロードの読み取りと書き込みで次善のパフォーマンスを観察しています。彼らは、コストを最小限に抑えながら、このパフォーマンスを向上させたいと考えています。彼らは何をすべきですか?
A. オファーを表示するユーザーごとに順次増加する数値IDに基づく行キーを使用するようにスキーマを再設計します。
B. テーブルの行スペース全体に読み取りと書き込みを均等に分散することにより、スキーマを再定義します。
C. BigDateクラスターのサイトが増えるにつれて、パフォーマンスの問題は時間の経過とともに解決されるはずです。
D. 単一の行キーを使用して、クラスター内で頻繁に更新する必要がある値を識別するようにスキーマを再設計します。
正解:B
質問 7:
既存のオンプレミス データ戦略を最新化する必要があります。あなたの組織は現在使用しています。
* データ レプリケーション用のオンプレミス Hadoop 分散ファイル システム (HDFS) を含む、複数の大規模データ セットを処理するための Apache Hadoop クラスター。
* Apache Airflow は、数千のジョブ ステップを含む数百の ETL パイプラインを調整します。
Hadoop ワークロードを処理でき、既存のオーケストレーション プロセスへの変更を最小限に抑えることができる新しいアーキテクチャを Google Cloud にセットアップする必要があります。あなたは何をするべきか?
A. Dataproc を使用して Hadoop クラスタを Google Cloud に移行し、Cloud Storage を使用して HDFS のユースケースを処理します。Cloud Composer を使用してパイプラインをオーケストレーションします。
B. 大規模なワークロードには Bigtable を使用し、Cloud Storage に接続して HDFS ユースケースを処理します。 Cloud Composer でパイプラインをオーケストレーションします。
C. Dataproc を使用して Hadoop クラスタを Google Cloud に移行し、Cloud Storage を使用して HDFS のユースケースを処理します。Cloud Data Fusion を使用して、ETL パイプラインを視覚的に設計してデプロイします。
D. Dataproc を使用して Hadoop クラスタを Google Cloud に移行し、Cloud Storage を使用して HDFS ユースケースを処理します ETL パイプラインを Dataflow に変換します。
正解:A
解説: (Pass4Test メンバーにのみ表示されます)
質問 8:
Flowlogisticの経営陣は、現在のApacheKafkaサーバーがリアルタイムの在庫追跡システムのデータ量を処理できないと判断しました。 Google Cloud Platform(GCP)上に、独自の追跡ソフトウェアを提供する新しいシステムを構築する必要があります。システムは、さまざまなグローバルソースからデータを取り込み、リアルタイムで処理およびクエリを実行し、データを確実に保存できる必要があります。 GCP製品のどの組み合わせを選択する必要がありますか?
A. Cloud Pub / Sub、Cloud SQL、およびCloud Storage
B. クラウド負荷分散、クラウドデータフロー、クラウドストレージ
C. Cloud Pub / Sub、Cloud Dataflow、Cloud Storage
D. Cloud Pub / Sub、Cloud Dataflow、およびLocal SSD
正解:A
質問 9:
Cloud Machine Learning Engineでサポートされているソフトウェアライブラリはどれですか?
A. TheanoとTensorFlow
B. TensorFlow
C. テアノとトーチ
D. TensorFlowとトーチ
正解:B
解説: (Pass4Test メンバーにのみ表示されます)
Asakawa -
Professional-Data-Engineer日本語版試験対策に役立てることができます。理解しやすかったです。口コミどおり、これ問題集一つで合格できるって本当ですね。