llms.txt について考える

SEO/AIO/MEO Tips

llms.txt について考える

先日、Xのタイムラインに「llms.txt」に関するポストが流れてきました。
Googleがllms.txtを実装してるというですね。
以下のファイルがllms.txtです。

AIOやLLMOに関して過敏になってしまう昨今、ここで落ち着いて「llms.txt」について考えてみたく思います。
記述方法も見た通り簡単ですので、覚えておいて損はありませんよね。

Search Engine Roundtableの記事の確認

以下の記事をご覧ください。

そのままなんですが、タイトルを直訳すると「Google検索チームはLLMs.txtファイルを推奨しません」です。

というのも、XでSEOに関わる方々のやり取りで、Googleがllms.txtを推奨してないような、そんな物言いがあったというようなんですね。

ポストの真意を探り出すと話が長くなりますし、何が真実なのかは我々の知るところではないと思いますので、ひとまずあまり深く考えずに、llms.txtを考えた方がいいように感じています。

llms.txtの役割

「robots.txt」と同様で、LLM(大規模言語モデル)に対して、コンテンツの在り方を記述したファイルです。
LLMやAIのクローラーがクロールするためのファイルだと考えられています。
robots.txtは検索エンジンクローラーに対して設置するものなんですが、同じような意味合いを持つファイルですね。

先ほど見ていただいた Google が設置しているファイルの内容を以下で見てみましょう。

# Gemini API reference

Gemini API documentation

## Docs

– [Gemini API reference](https://ai.google.dev/api.md.txt): Gemini API documentation
– [All methods](https://ai.google.dev/api/all-methods.md.txt): Gemini API documentation
– [Batch API](https://ai.google.dev/api/batch-api.md.txt): Gemini API documentation
– [Caching](https://ai.google.dev/api/caching.md.txt): Gemini API documentation
– [Using files](https://ai.google.dev/api/files.md.txt): Gemini API documentation
– [Generating content](https://ai.google.dev/api/generate-content.md.txt): Gemini API documentation
– [Live Music API – WebSockets API reference](https://ai.google.dev/api/live_music.md.txt): Gemini API documentation
– [Corpus Permissions](https://ai.google.dev/api/semantic-retrieval/permissions.md.txt): Gemini API documentation
– [Counting tokens](https://ai.google.dev/api/tokens.md.txt): Gemini API documentation
– [Permissions](https://ai.google.dev/api/tuning/permissions.md.txt): Gemini API documentation
– [Embeddings](https://ai.google.dev/api/embeddings.md.txt): Gemini API documentation
– [Live API – WebSockets API reference](https://ai.google.dev/api/live.md.txt): Gemini API documentation
– [Models](https://ai.google.dev/api/models.md.txt): Gemini API documentation
– [PaLM (decommissioned)](https://ai.google.dev/api/palm.md.txt): Gemini API documentation
– [Chunks](https://ai.google.dev/api/semantic-retrieval/chunks.md.txt): Gemini API documentation
– [Corpora](https://ai.google.dev/api/semantic-retrieval/corpora.md.txt): Gemini API documentation
– [Documents](https://ai.google.dev/api/semantic-retrieval/documents.md.txt): Gemini API documentation
– [Question answering](https://ai.google.dev/api/semantic-retrieval/question-answering.md.txt): Gemini API documentation
– [Tuning](https://ai.google.dev/api/tuning.md.txt): Gemini API documentation
– [Gemini API](https://ai.google.dev/api/interactions-api.md.txt): Gemini API documentation

上記を見れば大体察しはつきますね。
仕様に関するテキストデータが設置されている場所が記述されています。

それぞれのテキストファイルの内容ですが、プロンプトが書かれていました。
面白いですね。
robots.txtなんかはプログラムとして言語が記述されていましたが、こちらのファイルには、そのまんまの言語でプロンプトが書かれています。
正確に読み取ってもらうために、一定の記述ルールはあるようですが、プログラム言語とはちょっと違います。
LLMって凄いですよね。
この記述で大体分かってしまうということなんですね。

llms.txtの記述方法

※この項目に関しては仕様が随時変更されている可能性があるため、随時、補足を入れたり修正している可能性が高いです。

正しい記述方法はありません。
およそ、全て自由記述です。
今となっては、どのような書き方をしても、LLMは読み込んで理解してくれるのでしょう。

上記のファイル諸々から察するに以下のような形式で記述すれば問題はないと考えます。

# プロジェクト名

アウトライン

## ドキュメント

– [ページ名](URL)

### 仕様

説明

およそ上記の記述で問題はないのかなと感じます。
例えばリンクの書き方は以下のように書かれていますね。

– [ページ名](URL)

重要な部分は以下のように”**”で囲われています。

** text **

また、 form に関するような情報や、json や python に関する情報もそのまま書かれているように見受けます。
(ここに関しては清水の意訳ですので正しくないかもしれません。)

ともあれ、かなり自由記述で「あとは上手く処理してね」と一緒に書かれてるような、全体的な流れはそんな感じに見受けています。

締め

llms.txtに関して考えるべきことは以上です。
他にllms.txtに関する補足的な情報はたくさんあるんですが、既に色んなサイトにもアップされていますし、なんだったら Google のAI Overviewsにお任せしていいんじゃないかな・・・とそんなことを思いましたので、ここでは、弊社のオリジナル情報のみをアップいたしました。

さて、最後に重要な部分だけを考察したく思います。

一般的な静的なコーポレートサイトには、こういったllms.txtは不要でしょう。
例えば、AIは一般的なWEBサイトの情報は既に取得されています。

そうではなく、大規模サイトでシステムで情報の出し入れが忙しいシステムサイトであれば、設置することに意味が出てくるような、そのように見受けました。
LLMが正しく情報を取得することを助けるための仕様を書き出しているように見受けます。
そのため、一般的なWEBサイトにはllms.txtは不要なんじゃないかなと感じました。

冒頭に記載したSEOに関わる方々のXでのコミュニケーションの持つ意味は、このことなんじゃないかな・・・と感じました。

llms.txtの仕様をもっと細かく把握したい場合、wordpressのプラグインを使うことが一番手っ取り早いと感じます。
記述自体が自由記述なため、いきなり手書きで書こうとするのはなかなか難しいかなと感じます。
ですが、wordpressのプラグインでコンテンツを自動で抽出してllms.txtをつくってくれるんであれば、まずはそれをモデルにしてllms.txtに慣れるといいかなと感じます。

AIOにllms.txtがどこまで必要か・・・そんなことを思うんですが、解釈が難しいですね。
一般的なWEBサイトには不要だと感じるので・・・。
ですので、AIOの第一歩は、コンテンツの「起承転結」をしっかり明示するようなコンテンツをつくることなのかな、と考えます。
ということだけは忘れないでいただきたいかなと思います

清水 隼斗

SEMラボラトリー 代表取締役の清水です。基本的にWEBが大好きです。WEBの世界に入って20年が経ちました。SEOやMEO、広告運用や動画運用、これら諸々の実績も数えきれず。ただ、過去のWEBと現在のWEBには違いがありすぎて参考にならないことが多いので、未来に役立つ記事を配信するように心がけています。

関連記事

コメント

この記事へのコメントはありません。

カテゴリー
アーカイブ