NVIDIA NCA-GENL Training and Model Customization

Use for pretraining, fine-tuning, instruction tuning, PEFT or LoRA, datasets, optimization choices, and adapting a base model to a task.

試験Exams
NCA-GENL
問題数Questions
13
コメント数Comments
0
1 13

表示中 13 / 13 問

1. NCA-GENL トピック 1 問題 51. NCA-GENL Topic 1 Question 5

問題Question

予測出力と実際の出力の間の誤差に基づいてニューラル ネットワークの重みを調整することによってディープ ラーニング モデルをトレーニングするように設計された手法はどれですか?

  • A. 勾配ブースティング
  • B. 主成分分析
  • C. K 平均法クラスタリング
  • D. バックプロパゲーション

Which technique is designed to train a deep learning model by adjusting the weights of the neural network based on the error between the predicted and actual outputs?

  • A. Gradient Boosting
  • B. Principal Component Analysis
  • C. K-means Clustering
  • D. Backpropagation

2. NCA-GENL トピック 1 問題 152. NCA-GENL Topic 1 Question 15

問題Question

NVIDIA NEMO ツールキットの目的は何ですか?

  • A. NeMo は、言語の単語とその形成方法を研究することで、言語の形態学に焦点を当てています。
  • B. NeMo は、研究者が損失の影響を最小限に抑えながらサイズをトレードオフするモデルの開発を支援します。
  • C. NeMo は、音声認識と自然言語理解のためのモデルの作成を容易にします。
  • D. NeMo は、研究者が畳み込みに基づいてコンピューター ビジョン用の最先端のモデルを開発するのを支援します。

What is the purpose of the NVIDIA NEMO Toolkit?

  • A. NeMo focuses on the morphology of a language by studying its words, and how they are formed.
  • B. NeMo helps researchers to develop models that trade-off size with minimum loss impact.
  • C. NeMo facilitates the creation of models for speech recognition and natural language understanding.
  • D. NeMo helps researchers develop state-of-the-art models for computer vision based on convolutions.

3. NCA-GENL トピック 1 問題 163. NCA-GENL Topic 1 Question 16

問題Question

メモリ効率の高い方法で LLM を微調整するために使用できる、パラメータ効率の高い微調整アプローチは次のうちどれですか?

  • A. テンソルRT
  • B. NEMO
  • C. チンチラ
  • D. LoRA

Which of the following is a parameter-efficient fine-tuning approach that one can use to fine-tune LLMs in a memory efficient fashion?

  • A. Tensor-RT
  • B. NEMO
  • C. Chinchilla
  • D. LoRA

4. NCA-GENL トピック 2 問題 24. NCA-GENL Topic 2 Question 2

問題Question

特定のアプリケーション向けに LLM を微調整する場合、新しいトレーニング データセットに対して探索的データ分析 (EDA) を実行することが不可欠なのはなぜですか?

  • A. 微調整に必要なコンピューティング リソースを評価するため
  • B. データセット内のパターンと異常を明らかにするには
  • C. モデルに適切な学習率を選択するには
  • D. ニューラル ネットワークの最適な層数を決定するには

When fine-tuning an LLM for a specific application, why is it essential to perform exploratory data analysis (EDA) on the new training dataset?

  • A. To assess the computing resources required for fine-tuning
  • B. To uncover patterns and anomalies in the dataset
  • C. To select the appropriate learning rate for the model
  • D. To determine the optimum number of layers in the neural network

5. NCA-GENL トピック 2 問題 35. NCA-GENL Topic 2 Question 3

問題Question

コーパスの TF-IDF ベクトルを計算する場合、テキストのステミングまたは見出し語化が有益な前処理ステップとみなされるのはなぜですか?

  • A. 単語の異形を語根の形に折りたたむことで一意のトークンの数を減らし、データ内のノイズを減らす可能性があります。
  • B. テキストの美的魅力が高まり、読者が文書の内容を理解しやすくなります。
  • C. より多くの一意のトークンを導入することでデータセットの複雑さが増し、各ドキュメントの独自性が強化されます。
  • D. より正確な単語の使用の区別を保証することにより、TF-IDF ベクトルの精度の向上が保証されます。

Why might stemming or lemmatizing text be considered a beneficial preprocessing step in the context of computing TF-IDF vectors for a corpus?

  • A. It reduces the number of unique tokens by collapsing variant forms of a word into their root form, potentially decreasing noise in the data.
  • B. It enhances the aesthetic appeal of the text, making it easier for readers to understand the document’s content.
  • C. It increases the complexity of the dataset by introducing more unique tokens, enhancing the distinctiveness of each document.
  • D. It guarantees an increase in the accuracy of TF-IDF vectors by ensuring more precise word usage distinction.

6. NCA-GENL トピック 2 問題 56. NCA-GENL Topic 2 Question 5

問題Question

tSNE や UMAP などのデータ クラスタリングおよび視覚化技術をいつ使用する必要がありますか?

  • A. 欠損値を処理してデータセットに代入する必要がある場合。
  • B. 回帰分析を行って連続的な数値を予測する必要がある場合。
  • C. データの次元を削減し、低次元空間でクラスターを視覚化する必要がある場合。
  • D. 特徴抽出を実行し、データセット内の重要な変数を特定する必要がある場合。

When should one use data clustering and visualization techniques such as tSNE or UMAP?

  • A. When there is a need to handle missing values and impute them in the dataset.
  • B. When there is a need to perform regression analysis and predict continuous numerical values.
  • C. When there is a need to reduce the dimensionality of the data and visualize the clusters in a lower-dimensional space.
  • D. When there is a need to perform feature extraction and identify important variables in the dataset.

7. NCA-GENL トピック 2 問題 67. NCA-GENL Topic 2 Question 6

問題Question

XGBoost と cuML の主要なアプリケーションは次のタスクのうちどれですか?

  • A. データの検査、クレンジング、変換
  • B. GPU アクセラレーションによる機械学習タスクの実行
  • C. 深層学習モデルのトレーニング
  • D. データの視覚化と分析

Which of the following tasks is a primary application of XGBoost and cuML?

  • A. Inspecting, cleansing, and transforming data
  • B. Performing GPU-accelerated machine learning tasks
  • C. Training deep learning models
  • D. Data visualization and analysis

8. NCA-GENL トピック 2 問題 78. NCA-GENL Topic 2 Question 7

問題Question

自然言語理解 (NLU) のための探索的データ分析 (EDA) において、テキスト データ内の単語間の文脈上の関係を理解するために不可欠な方法はどれですか?

  • A. 個々の単語の頻度を計算して、テキスト内で最も一般的な用語を特定します。
  • B. 感情分析を適用して、テキストで表現される全体的な感情を測定します。
  • C. 単語の頻度を視覚的に表し、重要な用語を強調表示するために単語雲を生成します。
  • D. N-gram モデルを作成して、バイグラムやトリグラムなどの単語シーケンスのパターンを分析します。

In Exploratory Data Analysis (EDA) for Natural Language Understanding (NLU), which method is essential for understanding the contextual relationship between words in textual data?

  • A. Computing the frequency of individual words to identify the most common terms in a text.
  • B. Applying sentiment analysis to gauge the overall sentiment expressed in a text.
  • C. Generating word clouds to visually represent word frequency and highlight key terms.
  • D. Creating n-gram models to analyze patterns of word sequences like bigrams and trigrams.

9. NCA-GENL トピック 2 問題 89. NCA-GENL Topic 2 Question 8

問題Question

あなたはデータ サイエンティストと協力して、テキスト データを分析および処理して意味のある洞察とパターンを抽出するプロジェクトに取り組んでいます。実験にはあまり時間がないため、効率的なテキスト分析と操作のために Python パッケージを選択する必要があります。どの Python パッケージがそのタスクに最適ですか?

  • A. ナムピー
  • B. スペイシー
  • C. パンダ
  • D. マットプロットリブ

You are working with a data scientist on a project that involves analyzing and processing textual data to extract meaningful insights and patterns. There is not much time for experimentation and you need to choose a Python package for efficient text analysis and manipulation. Which Python package is best suited for the task?

  • A. NumPy
  • B. spaCy
  • C. Pandas
  • D. Matplotlib

10. NCA-GENL トピック 3 問題 110. NCA-GENL Topic 3 Question 1

問題Question

ML プロジェクトのステップの正しい順序は何ですか?

  • A. モデル評価、データ前処理、モデルトレーニング、データ収集
  • B. モデル評価、データ収集、データ前処理、モデルトレーニング
  • C. データの前処理、データ収集、モデルのトレーニング、モデルの評価
  • D. データ収集、データ前処理、モデルトレーニング、モデル評価

What is the correct order of steps in an ML project?

  • A. Model evaluation, Data preprocessing, Model training, Data collection
  • B. Model evaluation, Data collection, Data preprocessing, Model training
  • C. Data preprocessing, Data collection, Model training, Model evaluation
  • D. Data collection, Data preprocessing, Model training, Model evaluation

11. NCA-GENL トピック 4 問題 211. NCA-GENL Topic 4 Question 2

問題Question

迅速なエンジニアリング、迅速な学習、またはパラメーターの効率的な微調整によって LLM をカスタマイズする必要があります。これらすべてを行うのに役立つフレームワークはどれですか?

  • A. Nvidia TensorRT
  • B. Nvidia DALI
  • C. Nvidia トリトン
  • D. Nvidia NeMO

You are in need of customizing your LLM via prompt engineering, prompt learning, or parameter efficient fine-tuning. Which framework helps you with all of these?

  • A. Nvidia TensorRT
  • B. Nvidia DALI
  • C. Nvidia Triton
  • D. Nvidia NeMO

12. NCA-GENL トピック 4 問題 812. NCA-GENL Topic 4 Question 8

問題Question

数十億のパラメータで構成される LLM をトレーニングしていて、トレーニング データセットがシステムで利用可能な RAM よりも大幅に大きいと想像してください。代替となるのは次のうちどれですか?

  • A. GPU メモリを使用して、データセットを保存するための RAM 容量を拡張し、場合によっては PCI 帯域幅を使用して GPU の内外にデータセットを移動します。
  • B. メモリ マップト ファイルを使用すると、データセットをメモリに完全に読み込まなくても、ライブラリがデータセットの要素にアクセスして操作できるようになります。
  • C. 過剰なデータを破棄し、RAM の容量に合わせてデータセットをプルーニングすることで、推論中の待ち時間が短縮されます。
  • D. 構文的に異なる文を意味的に同等にすることで排除し、要点を理解するためにモデルがトレーニングされる際にモデルが幻覚を起こすリスクを軽減できる可能性があります。

Imagine you are training an LLM consisting of billions of parameters and your training dataset is significantly larger than the available RAM in your system. Which of the following would be an alternative?

  • A. Using the GPU memory to extend the RAM capacity for storing the dataset and move the dataset in and out of the GPU, using the PCI bandwidth possibly.
  • B. Using a memory-mapped file that allows the library to access and operate on elements of the dataset without needing to fully load it into memory.
  • C. Discarding the excess of data and pruning the dataset to the capacity of the RAM, resulting in reduced latency during inference.
  • D. Eliminating sentences that are syntactically different by semantically equivalent, possibly reducing the risk of the model hallucinating as it is trained to get to the point.

13. NCA-GENL トピック 4 問題 913. NCA-GENL Topic 4 Question 9

問題Question

データ並列トレーニングを実装する場合、次のどれを考慮する必要がありますか?

  • A. モデルの重みは、すべてのエポックの終了時にのみ、すべてのプロセス/デバイス間で同期されます。
  • B. 異なるプロセス間で重みを同期するためのマスター/ワーカー方式は、スケーラビリティの点で望ましいです。
  • C. リングオールリデュースは、異なるプロセス/デバイス間で重みを同期するための効率的なアルゴリズムです。
  • D. モデルの重みは可能な限り長く独立した状態に保たれるため、モデルの探索が増加します。

When implementing data parallel training, which of the following considerations needs to be taken into account?

  • A. The model weights are synced across all processes/devices only at the end of every epoch.
  • B. A master-worker method for syncing the weights across different processes is desirable due to its scalability.
  • C. A ring all-reduce is an efficient algorithm for syncing the weights across different processes/devices.
  • D. The model weights are kept independent for as long as possible, increasing the model exploration.