Update audio part of Llamafactory docs (#756)

* add llamafactory examples * tiny fix * update doc about inference * update audio part of llamafactory
2026-02-05 18:29:18 +08:00 · 2025-01-22 12:45:09 +08:00
parent 9cf46a3a2a
commit 1850a6b825
1 changed files with 64 additions and 1 deletions
--- a/docs/llamafactory_train_and_infer.md
+++ b/docs/llamafactory_train_and_infer.md
@@ -5,6 +5,9 @@
 - [Support Models](#Support-Models)
 - [LLaMA-Factory Installation](#LLaMA-Factory-Installation)
 - [Dataset Prepare](#Dataset-Prepare)
  - [Image Dataset](#Image-Dataset)
  - [Video Dataset](#Video-Dataset)
  - [Audio Dataset](#Audio-Dataset)
 - [Lora Fine-Tuning](#Lora-Fine-Tuning)
 - [Full Parameters Fine-Tuning](#Full-Parameters-Fine-Tuning)
 - [Inference](#Inference)
@@ -175,6 +178,66 @@ Refer to video sft demo data: [data/mllm_video_demo.json](https://github.com/hiy
 </details>
 ### Audio Dataset
 Refer to audio sft demo data: [data/mllm_audio_demo.json](https://github.com/hiyouga/LLaMA-Factory/blob/main/data/mllm_audio_demo.json)
 <details>
  <summary>
    <b>data/mllm_audio_demo.json</b>
  </summary>
 ```json
 [
  {
    "messages": [
      {
        "content": "<audio>What's that sound?",
        "role": "user"
      },
      {
        "content": "It is the sound of glass shattering.",
        "role": "assistant"
      }
    ],
    "audios": [
      "mllm_demo_data/1.mp3"
    ]
  },
  {
    "messages": [
      {
        "content": "<audio>What can you hear?",
        "role": "user"
      },
      {
        "content": "A woman is coughing.",
        "role": "assistant"
      }
    ],
    "audios": [
      "mllm_demo_data/2.wav"
    ]
  },
  {
    "messages": [
      {
        "content": "<audio>What does the person say?",
        "role": "user"
      },
      {
        "content": "Mister Quiller is the apostle of the middle classes and we are glad to welcome his gospel.",
        "role": "assistant"
      }
    ],
    "audios": [
      "mllm_demo_data/3.flac"
    ]
  }
 ]
 ```
 </details>
 ## Lora Fine-Tuning
@@ -201,7 +264,7 @@ finetuning_type: lora
 lora_target: q_proj,v_proj
 ### dataset
-dataset: mllm_demo # mllm_demo mllm_video_demo
+dataset: mllm_demo # mllm_demo mllm_video_demo mllm_audio_demo
 template: minicpm_v
 cutoff_len: 3072
 max_samples: 1000