問題用紙を撮影して AI から解答を教えてもらうアプリ

問題用紙を撮影して AI から解答を教えてもらうアプリ、「StadySnap」を開発した。

StadySnap
https://www.ikachi.org/ai_ocr/

画像を OCR で文字抽出し、それを OpenAI API に渡す。
OCR は、Google Vision API を使った。
Claude Code にソースコードを書かせたのだが、当初、Google Vision API がうまく動作しなかったため、勝手に Open AI の OCR に切り替えます、などとメッセージが出てきたため、慌てて中断した。
Claude Code の、こういった勝手な行動は、非常に困る。
相変わらず、Open AI API のモデルを gpt-4.1-nano と指定しているにもかかわらず、gpt-4.0-mini だったり、gpt-3.5-turbo に書き換えたがるようだ。

OpenAI API にも OCR があるという情報の真偽は確かめていないが、Claude Code にどっちが高いかを聞くと、「Google Vision API の方がはるかに安い」という返答だったため、「では勝手に仕様を変えるな」と指示を出した。

アプリの方の説明としては、

1) 問題用紙の画像を指定
2) 問題用紙から文字を抽出し、いったん確認させる
3) その内容で OpenAI API を呼び出し、レスポンスを表示

の 3 段階となっている。
← 前の記事
自然言語によるデータ操作と業務アプリの進化
次の記事 →
DeepSeek 以外で長文を扱える AI サービス
記事一覧に戻る