Datasets:

codefuse-ai
/

F2LLM

@@ -1,11 +1,18 @@
 ---
-license: apache-2.0
 language:
 - en
 size_categories:
 - 1M<n<10M
 ---
 The F2LLM dataset includes 6 million query-document-negative tuples curated solely from open-source, non-synthetic data, serving as a strong, budget-friendly baseline for training embedding models.
 ## Data Format

 ---
 language:
 - en
+license: apache-2.0
 size_categories:
 - 1M<n<10M
+task_categories:
+- text-retrieval
+- feature-extraction
 ---
+# F2LLM Dataset
+[Paper](https://huggingface.co/papers/2510.02294) | [Code](https://github.com/codefuse-ai/CodeFuse-Embeddings/tree/main/F2LLM)
 The F2LLM dataset includes 6 million query-document-negative tuples curated solely from open-source, non-synthetic data, serving as a strong, budget-friendly baseline for training embedding models.
 ## Data Format